Fakulta dopravní PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA. Doc. RNDr. Jana Novovičová, CSc. verze 12. dubna Vydavatelství ČVUT

ˇ ´ VYSOKE ´ UCEN ˇ Í TECHNICKE ´ V PRAZE CESK E Fakulta dopravn´ı

ˇ PRAVDEPODOBNOST ´ STATISTIKA A MATEMATICKA

Doc. RNDr. Jana Novoviˇcová, CSc.

verze 12. dubna 2006 ˇ Vydavatelstv´ı CVUT

Lektor : Doc. Ing. Miloslav Voˇsvrda, CSc.

Pˇ redmluva Text je uspoˇra´dán tak, ˇze prvn´ı ˇctyˇri kapitoly jsou vˇenovány popisné statistice a poˇctu pravdˇepodobnosti, zb´ yvaj´ıc´ı kapitoly pak základ˚ um matematické statistiky vˇcetnˇe regresn´ı a korelaˇcn´ı anal´ yzy. Tradiˇcn´ı látka o regresi a korelaci je rozdˇelena na dvˇe ˇca´sti, prvn´ı je vˇenována popisn´ ym metodám v regresi a korelaci, druhá statistické indukci. Seznam literatury obsahuje prameny pouˇzité pˇri zpracován´ı tohoto textu. Shrnut´ı d˚ uleˇzit´ ych vzorc˚ u je zaˇrazeno na konci uˇcebn´ıho textu jako pˇr´ıloha. C´ılem tohoto uˇcebn´ıho textu je vysvˇetlit základn´ı statistické pojmy a metody a nauˇcit se je aplikovat. Na zaˇca´tku kaˇzdé kapitoly je struˇcnˇe popsáno o ˇcem kapitola pojednává a jak obsah kapitoly souvis´ı s ostatn´ı látkou v uˇcebn´ım textu. K v´ ykladu nové látky jsou pouˇzity pˇr´ıklady. Obecná teorie je vykládána teprve poté, co se z´ıská jasná pˇredstava o základn´ıch pojmech. Studenti dostanou základn´ı vˇedecké poznatky, které jsou podrobnˇeji vysvˇetlené ve speciáln´ıch textech. Podm´ınkou zvládnut´ı látky tohoto uˇcebn´ıho textu je znalost základ˚ u matematické anal´ yzy a elementárn´ı algebry. Z hlediska matematick´ ych v´ ypoˇct˚ u jsou ilustraˇcn´ı pˇr´ıklady co nejjednoduˇsˇs´ı, aby se studenti mohli soustˇredit na podstatu problému. Smyslem provádˇen´ı ruˇcn´ıch v´ ypoˇct˚ u je vypˇestovat ve studentech cit pro v´ yznam statistick´ ych pojm˚ u, nikoliv udˇelat z nich skvˇelé poˇctáˇre.

Podˇ ekov´ an´ı Moje vˇrelé podˇekován´ı patˇr´ı pˇredevˇs´ım Ing. Pavlu Pacl´ıkovi, PhD (od roku 2000 Delft University of Technology, Faculty of Electrical Engineering, Mathematics and Computer Science, The Netherlands), kter´ y zhotovil vˇsechny obrázky, navrhl a realizoval technickou formu tohoto textu a poskytl cenné podnˇety a návrhy pramen´ıc´ı z jeho zkuˇsenost´ı ze studia na fakultˇe ˇ dopravn´ı CVUT.

Praha, leden 2006 Doc.RNDr. Jana Novoviˇcová, CSc.

´ Ustav teorie informace a automatizace ˇ e republiky Akademie vˇed Cesk´

3

Oznaˇ cen´ı N

mnoˇzina nezáporn´ ych cel´ ych ˇc´ısel

N+

mnoˇzina pˇrirozen´ ych ˇc´ısel

Nm

mnoˇzina {1, 2, · · · , m}, m ∈ N+

R

mnoˇzina reáln´ ych ˇc´ısel

R+

mnoˇzina kladn´ ych reáln´ ych ˇc´ısel

k

R

mnoˇzina k-rozmˇern´ ych reáln´ ych vektor˚ u

n [m ]

celá ˇcást ˇc´ısla

AT

transponspozice matice A

I

jednotková matice

uT

ˇrádkov´ y vektor, transpozice sloupcového vektoru u

F : R → R+

F je zobrazen´ı definované na mnoˇzinˇe R s hodnotami v mnoˇzinˇe R+

t(ν)

Studentovo t-rozdˇelen´ı s ν stupni volnosti

χ2 (ν)

χ2 -rozdˇelen´ı s ν stupni volnosti

X ∼ N (µ, σ 2 )

náhodná veliˇcina má normáln´ı rozdˇelen´ı s parametry µ a σ 2

X ≈ N (µ, σ 2 )

náhodná veliˇcina má pˇribliˇznˇe normáln´ı rozdˇelen´ı s parametry µ a σ 2

(a, b)

{x ∈ R : a < x < b}, a ≤ b ∈ R

(a, bi

{x ∈ R : a < x ≤ b}, a ≤ b ∈ R

ha, bi

{x ∈ R : a ≤ x ≤ b}, a ≤ b ∈ R

n m

4

Obsah Pˇ redmluva

3

Oznaˇ cen´ı

4

1 Podstata statistiky 1.1 Dva základn´ı typy statistiky . 1.2 V´ ybˇer a základn´ı soubor . . . 1.2.1 Prost´ y náhodn´ y v´ ybˇer 1.2.2 Jiné metody v´ ybˇeru . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

2 Popisn´ a statistika 2.1 Veliˇciny a data . . . . . . . . . . . . . . . . . . . 2.2 Elementárn´ı zpracován´ı statistick´ ych dat . . . . . 2.2.1 Tˇr´ıdˇen´ı dat . . . . . . . . . . . . . . . . . 2.2.2 Statistické grafy . . . . . . . . . . . . . . . 2.2.3 Tvar rozdˇelen´ı ˇcetnost´ı; symetrie a ˇsikmost 2.3 Popisné m´ıry statistick´ ych soubor˚ u . . . . . . . . 2.3.1 Kvantily . . . . . . . . . . . . . . . . . . . 2.3.2 M´ıry polohy . . . . . . . . . . . . . . . . . 2.3.3 M´ıry rozpt´ ylenosti . . . . . . . . . . . . . 2.3.4 M´ıry ˇsikmosti a ˇspiˇcatosti . . . . . . . . .

. . . .

. . . . . . . . . .

. . . .

. . . . . . . . . .

. . . .

. . . . . . . . . .

. . . .

. . . . . . . . . .

. . . .

. . . . . . . . . .

. . . .

. . . . . . . . . .

. . . .

. . . . . . . . . .

. . . .

. . . . . . . . . .

. . . .

. . . . . . . . . .

3 Poˇ cet pravdˇ epodobnosti 3.1 Pojem pravdˇepodobnosti . . . . . . . . . . . . . . . . . . . . . . . 3.2 Náhodné jevy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Vztahy mezi jevy . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Vzájemnˇe nesluˇcitelné jevy . . . . . . . . . . . . . . . . . . 3.3 Axiomatická definice pravdˇepodobnosti . . . . . . . . . . . . . . . 3.4 Pravidla pro poˇc´ıtán´ı s pravdˇepodobnostmi . . . . . . . . . . . . . 3.4.1 Pravidlo o sˇc´ıtán´ı pravdˇepodobnost´ı . . . . . . . . . . . . . 3.4.2 Pravidlo pro pravdˇepodobnost opaˇcného jevu . . . . . . . 3.4.3 Pravidlo o podm´ınˇené pravdˇepodobnosti . . . . . . . . . . 3.4.4 Pravidlo pro násoben´ı pravdˇepodobnost´ı; nezávislost jev˚ u. 3.4.5 Vzorec u ´plné pravdˇepodobnosti a Bayes˚ uv vzorec . . . . . 3.5 Jiné pohledy na pravdˇepodobnost . . . . . . . . . . . . . . . . . . 5

. . . .

. . . . . . . . . .

. . . . . . . . . . . .

. . . .

. . . . . . . . . .

. . . . . . . . . . . .

. . . .

. . . . . . . . . .

. . . . . . . . . . . .

. . . .

. . . . . . . . . .

. . . . . . . . . . . .

. . . .

. . . . . . . . . .

. . . . . . . . . . . .

. . . .

9 9 11 11 12

. . . . . . . . . .

13 13 14 14 18 21 22 23 24 27 30

. . . . . . . . . . . .

31 31 33 34 35 36 37 37 37 38 39 42 43

OBSAH

4 N´ ahodn´ a veliˇ cina 4.1 Náhodná veliˇcina a jej´ı rozdˇelen´ı . . . . . . . . . . . 4.1.1 Distribuˇcn´ı funkce a hustota . . . . . . . . . 4.1.2 V´ıcerozmˇerná rozdˇelen´ı pravdˇepodobnost´ı . 4.1.3 Nezávislost náhodn´ ych veliˇcin . . . . . . . . 4.2 Charakteristiky náhodn´ ych veliˇcin . . . . . . . . . . 4.2.1 Stˇredn´ı hodnota . . . . . . . . . . . . . . . . 4.2.2 Rozptyl . . . . . . . . . . . . . . . . . . . . 4.2.3 Kvantily . . . . . . . . . . . . . . . . . . . . 4.2.4 Kovariance a korelace . . . . . . . . . . . . . 4.2.5 Vektor stˇredn´ıch hodnot, kovarianˇcn´ı matice 4.3 Nˇekterá rozdˇelen´ı pravdˇepodobnost´ı . . . . . . . . . 4.3.1 Diskrétn´ı rozdˇelen´ı . . . . . . . . . . . . . . 4.3.2 Spojitá rozdˇelen´ı . . . . . . . . . . . . . . . 4.4 Nˇekteré limitn´ı vˇety . . . . . . . . . . . . . . . . . . 4.4.1 Zákon velk´ ych ˇc´ısel . . . . . . . . . . . . . . 4.4.2 Centráln´ı limitn´ı vˇety . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

5 N´ ahodn´ y v´ ybˇ er 5.1 Pojem náhodného v´ ybˇeru . . . . . . . . . . . . . . . . . 5.2 V´ ybˇerové charakteristiky . . . . . . . . . . . . . . . . . . 5.3 Rozdˇelen´ı v´ ybˇerov´ ych charakteristik . . . . . . . . . . . . 5.3.1 Rozdˇelen´ı v´ ybˇerového pr˚ umˇeru . . . . . . . . . . 5.3.2 Rozdˇelen´ı v´ ybˇerového rozptylu . . . . . . . . . . . 5.3.3 Rozdˇelen´ı v´ ybˇerového pod´ılu . . . . . . . . . . . . 5.4 Nezávislé náhodné v´ ybˇery . . . . . . . . . . . . . . . . . 5.4.1 Dva nezávislé v´ ybˇery z normáln´ıho rozdˇelen´ı nebo 5.4.2 Dva nezávislé v´ ybˇery z alternativn´ıho rozdˇelen´ı . 5.5 Párové náhodné v´ ybˇery . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

44 44 45 49 50 51 51 53 53 54 55 56 56 59 64 64 66

68 . . . . . . . . . . . 68 . . . . . . . . . . . 69 . . . . . . . . . . . 69 . . . . . . . . . . . 70 . . . . . . . . . . . 71 . . . . . . . . . . . 72 . . . . . . . . . . . 73 velké rozsahy v´ ybˇer˚ u 73 . . . . . . . . . . . 75 . . . . . . . . . . . 75

6 Z´ aklady teorie odhadu parametr˚ u 6.1 Bodové a intervalové odhady . . . . . . . . . . . . . . . . . . . . 6.2 Vlastnosti bodov´ ych odhad˚ u . . . . . . . . . . . . . . . . . . . . 6.2.1 Nestranné odhady . . . . . . . . . . . . . . . . . . . . . . 6.2.2 Konzistentn´ı odhady . . . . . . . . . . . . . . . . . . . . 6.2.3 Vydatnost odhad˚ u . . . . . . . . . . . . . . . . . . . . . 6.3 Nˇekteré metody bodov´ ych odhad˚ u. . . . . . . . . . . . . . . . . 6.3.1 Metoda moment˚ u . . . . . . . . . . . . . . . . . . . . . . 6.3.2 Metoda maximáln´ı vˇerohodnosti . . . . . . . . . . . . . . 6.4 Intervaly spolehlivosti . . . . . . . . . . . . . . . . . . . . . . . . 6.4.1 Sestrojen´ı intervalu spolehlivosti . . . . . . . . . . . . . . 6.5 Intervaly spolehlivosti pro stˇredn´ı hodnotu . . . . . . . . . . . . 6.5.1 Intervaly spolehlivosti pro stˇredn´ı hodnotu pˇri známém rozptylu . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5.2 Intervaly spolehlivosti pro stˇredn´ı hodnotu pˇri neznámé odchylce . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6 Intervaly spolehlivosti pro rozptyl . . . . . . . . . . . . . . . . . 6

. . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . smˇerodatné . . . . . . . . . . . . . .

77 77 78 78 79 80 81 82 82 85 85 86 86 89 90

OBSAH

6.7

Intervaly spolehlivosti pro pod´ıl . . . . . . . . . . . . . . . . . . . . . . . . .

92

7 Z´ aklady testov´ an´ı statistick´ ych hypot´ ez 7.1 Podstata testován´ı hypotéz . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 Formulace hypotéz . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.2 Volba testového kriteria . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Základn´ı pojmy a terminologie . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Testová statistika, obor pˇrijet´ı, obor zam´ıtnut´ı, kritické hodnoty . . 7.2.2 Chyba prvn´ıho a druhého druhu . . . . . . . . . . . . . . . . . . . . 7.2.3 Závˇery pˇri testován´ı hypotéz a jejich interpretace . . . . . . . . . . 7.2.4 Kritick´ y obor pro zadanou hladinu v´ yznamnosti . . . . . . . . . . . 7.2.5 Formulace procesu testován´ı hypotéz . . . . . . . . . . . . . . . . . 7.2.6 Klasick´ y pˇr´ıstup k testován´ı hypotéz . . . . . . . . . . . . . . . . . 7.3 P -hodnoty . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1 Pˇr´ıstup k testován´ı hypotéz zaloˇzen´ y na P -hodnotˇe . . . . . . . . . 7.4 Nˇekteré testy parametrick´ ych hypotéz . . . . . . . . . . . . . . . . . . . . . 7.4.1 Test hypotézy o stˇredn´ı hodnotˇe µ . . . . . . . . . . . . . . . . . . 7.4.2 Test hypotézy o rozptylu . . . . . . . . . . . . . . . . . . . . . . . . 7.4.3 Testy hypotézy o pod´ılu p . . . . . . . . . . . . . . . . . . . . . . . 7.5 Testy hypotéz o shodˇe dvou stˇredn´ıch hodnot . . . . . . . . . . . . . . . . 7.5.1 Testy hypotézy o shodˇe dvou stˇredn´ıch hodnot pro nezávislé v´ ybˇery 7.5.2 Testy hypotézy pro dvˇe stˇredn´ı hodnoty uˇzit´ım párov´ ych v´ ybˇer˚ u . . 7.6 Test hypotézy o shodˇe dvou pod´ıl˚ u pˇri nezávisl´ ych v´ ybˇerech . . . . . . . . 7.7 Ch´ı-kvadrát test dobré shody . . . . . . . . . . . . . . . . . . . . . . . . . 7.8 Ch´ı-kvadrát test nezávislosti . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

95 95 96 97 97 97 97 99 99 100 101 101 102 103 103 106 107 108 109 112 113 115 118

8 Regresn´ı a korelaˇ cn´ı anal´ yza 8.1 Lineárn´ı rovnice s jednou nezávislou promˇennou . . . . . . 8.2 Regresn´ı rovnice . . . . . . . . . . . . . . . . . . . . . . . . 8.2.1 Extrapolace . . . . . . . . . . . . . . . . . . . . . . 8.2.2 Odlehlá a vlivná pozorován´ı . . . . . . . . . . . . . 8.3 Koeficient determinace . . . . . . . . . . . . . . . . . . . . 8.4 Lineárn´ı korelace . . . . . . . . . . . . . . . . . . . . . . . 8.5 Lineárn´ı regresn´ı model . . . . . . . . . . . . . . . . . . . . 8.5.1 Bodov´ y odhad rozptylu σ 2 . . . . . . . . . . . . . . 8.5.2 Testy hypotéz a intervaly spolehlivosti pro parametr 8.5.3 Odhad a predikce . . . . . . . . . . . . . . . . . . . 8.6 Testy hypotéz o korelaˇcn´ım koeficientu . . . . . . . . . . . 8.7 Obecn´ y regresn´ı model . . . . . . . . . . . . . . . . . . . . 8.7.1 Maticové vyjádˇren´ı modelu lineárn´ı regrese . . . . .

. . . . . . . . . . . . .

120 121 121 125 125 127 129 131 133 134 137 140 141 144

Statistisk´ e tabulky

. . . . . . . . . . . . . . . . β1 . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

146

Pˇ r´ıloha

i

7

8

Kapitola 1 Podstata statistiky Pod pojmem statistika si vˇetˇsina lid´ı pˇredstavuje ˇc´ıselná fakta, jako napˇr´ıklad poˇcet nezamˇestnan´ ych, ceny potravin, nebo mnoˇzstv´ı uzavˇren´ ych sˇ natk˚ u a rozvod˚ u atd. Statistika (název z latinského slova status“ = stát) p˚ uvodnˇe znamenala vˇedu zab´ yvaj´ıc´ı ” se shromaˇzd’ován´ım, tˇr´ıdˇen´ım a tabelován´ım takov´ ychto dat. Statistika ale znamená mnohem v´ıce, neˇz je obsaˇzeno v této definici. Statistikové nejen data shromaˇzd’uj´ı, tˇr´ıd´ı a tabeluj´ı, ale také analyzuj´ı za u ´ˇcelem formulován´ı obecn´ ych závˇer˚ u a rozhodován´ı. Na pˇr´ıklad politick´ y ˇ analytik m˚ uˇze pouˇz´ıt u ´daje z´ıskané z ˇcásti oprávnˇen´ ych voliˇc˚ u v CR k predikci volebn´ıch prefˇ Mˇestské zastupitelstvo m˚ erenc´ı vˇsech oprávnˇen´ ych voliˇc˚ u celé CR. uˇze rozhodnout o tom, kde postavit novou dálnici, na základˇe souhrnn´ ych zpráv o ˇzivotn´ım prostˇred´ı a demografick´ ych zpráv, které zahrnuj´ı r˚ uzné statistické u ´daje. V této kapitole zavedeme základn´ı terminologii, takˇze r˚ uzné v´ yznamy slova statistika budou zˇrejmˇejˇs´ı.

1.1

Dva z´ akladn´ı typy statistiky

Pˇri statistick´ ych v´ yzkumech nás zaj´ımaj´ı hromadné jevy a procesy, tj. jevy a procesy vyskytuj´ıc´ı se u velkého poˇctu prvk˚ u. Tyto prvky naz´ yváme statistick´ e jednotky a jsou to elementárn´ı jednotky statistického zkoumán´ı. Mohou to b´ yt osoby (napˇr. zamˇestnanci podniku pˇri sledován´ı mezd), organizace (napˇr. podniky pˇri zkoumán´ı v´ yˇse v´ yroby), vˇeci, události, zv´ıˇrata apod. Pouˇzijeme dobˇre známé pˇr´ıklady z oblasti sportu a z oblasti politick´ ych voleb k objasnˇen´ı dvou základn´ıch typ˚ u statistiky: popisné statistiky a inferenˇcn´ı statistiky. Pˇ r´ıklad 1.1 Popisn´ a statistika

ˇ st´ı hokejisté hrali ´ ´ celkem 6 zapas ´ ˚ V unoru 1998 se v Japonsku konaly zimn´ı olympijské hry. Ceˇ u, ´ 5 zapas ´ ˚ a prohrali ´ 1 zapas. ´ ´ ´ zdili udaje ´ ´ vyhrali u Prace lid´ı, kteˇr´ı nashromaˇ o tˇechto zapasech ´ c´ıch (poˇcet nastˇr´ılenych ´ ´ u, ˚ prumˇ ˚ erny´ poˇcet gol ´ u˚ pˇripadaj´ıc´ı na jeden zapas, ´ ˚ erny´ i o hraˇ gol prumˇ ´ cu ˚ a pod.), je ilustrac´ı popisné statistiky. vˇek hraˇ

Formáln´ı vymezen´ı term´ınu popisná statistika je dáno následuj´ıc´ı definic´ı 1.1. Definice 1.1

P OPISN A´ STATISTIKA

Popisna´ statistika se skl´ adá z metod pro zjiˇst’ován´ı a sumarizaci informac´ı.

9

K APITOLA 1

P ODSTATA STATISTIKY

Popisná statistika zahrnuje konstrukci graf˚ u, diagram˚ u a tabulek a v´ ypoˇcet r˚ uzn´ ych popisn´ ych charakteristik jako je aritmetick´ y pr˚ umˇer, m´ıry rozpt´ ylenosti a percentily, jimiˇz se budeme zab´ yvat kapitole 2. Inferenˇcn´ı statistika (nebo téˇz statistická indukce) je ilustrována na pˇr´ıkladu 1.2. Pˇ r´ıklad 1.2 Inferenˇcn´ı statistika ˇ ´ ˚ Agentura STEM provedla v unoru 1998 v Cesk´ e republice pruzkum volebn´ıch preferenc´ı u 2000 ˇ ´ eny´ ch voliˇcu. ˚ Zjistila, zˇe 10% preferuje ODS, 29% CSSD, opravnˇ 11% US atd. Vy´ rok: V pˇredˇcasných ˇ ´ volb´ ach v ˇcervnu 1998 zv´ıtˇez´ı CSSD a z´ısk´ a podporu od 25% voliˇc˚ u, kteˇr´ı se z˚ uˇcastn´ı voleb, je vyrokem inferenˇcn´ı statistiky.

Politické volby poskytuj´ı pˇr´ıklad inferenˇcn´ı statistiky. Bylo by pˇr´ıliˇs nákladné a nerealistické dotazovat se vˇsech voliˇc˚ u na jejich volebn´ı preference. Statistikové, kteˇr´ı si pˇrej´ı ˇ se mohou dotázat jen peˇclivˇe vybrané skupiny odhadnout m´ınˇen´ı celé populace voliˇc˚ u CR, nˇekolika tis´ıc voliˇc˚ u. Taková skupina voliˇc˚ u se naz´ yvá výbˇer z populace. Statistikové analyzuj´ı informace z´ıskané z v´ ybˇeru voliˇcské populace, aby udˇelali závˇery o volebn´ıch preferenc´ıch celé voliˇcské populace. Inferenˇcn´ı statistika poskytuje metody pro formulován´ı takov´ ych závˇer˚ u. Terminologie zavedená v kontextu politick´ ych voleb se bˇeˇznˇe uˇz´ıvá ve statistice. Definice 1.2

´ Í SOUBOR ( POPULACE ) Z AKLADN

´ EROV ˇ ´ SOUBOR ( V YB ´ ER ˇ ) A V YB Y

Zakladn´ ı soubor: Soubor vˇsech statistick´ ych jednotek, které jsou pˇredmˇetem statistické ´

studie.

ˇ ast základn´ıho souboru, která slouˇzila k z´ıskán´ı informac´ı. Vybˇ ´ erovy´ soubor: C´ Poˇcet vˇsech jednotek základn´ıho souboru naz´ yváme rozsah z´ akladn´ıho souboru, je koneˇcn´ y nebo spoˇcetnˇe nekoneˇcn´ y, zpravidla je velk´ y. Poˇcet vˇsech jednotek v´ ybˇerového souboru se naz´ yvá rozsah v´ ybˇ erov´ eho souboru. Informace z´ıskané z v´ ybˇerového souboru slouˇz´ı k formulován´ı závˇeru o základn´ım souboru. Definice 1.3

ˇ Í STATISTIKA I NFEREN CN

Inferenˇcn´ı statistika se skl´ adá z metod pro pˇrij´ımán´ı a mˇeˇren´ı spolehlivosti závˇer˚ u o

populaci zaloˇzen´ ych na informac´ıch z´ıskan´ ych z v´ ybˇeru z této populace. Popisná statistika a inferenˇcn´ı statistika jsou vzájemnˇe propojeny. Témˇeˇr vˇzdy je nutné pouˇz´ıt metody popisné statistiky k organizován´ı a sumarizaci informac´ı z´ıskan´ ych z v´ ybˇeru dˇr´ıve neˇz provedeme statistické vyhodnocován´ı. Kromˇe toho pˇredbˇeˇzná popisná anal´ yza v´ ybˇeru ˇcasto odhal´ı rysy, které vedou k volbˇe (nebo k pˇrehodnocen´ı volby) vhodn´ ych inferenˇcn´ıch metod. Statistické zkoumán´ı lze zpravidla rozdˇelit do nˇekolika etap. Jde o etapu statistického zjiˇst’ován´ı neboli ˇsetˇren´ı, statistického zpracov´ an´ı zjiˇstˇených u ´daj˚ u a koneˇcnˇe o etapu statistického vyhodnocov´ an´ı. Pˇrestoˇze nejd˚ uleˇzitˇejˇs´ı je etapa tˇret´ı, je nezbytn´ ym pˇredpokladem jej´ı u ´spˇeˇsnosti, aby byly správnˇe provedeny etapy pˇredchoz´ı. Pˇredmˇetem tˇechto skript nen´ı prvn´ı etapa statistického zkoumán´ı (viz napˇr. [10, 7]). 10

´ Eˇ R A Z AKLADN ´ Í SOUBOR 1.2 V YB

1.2

V´ ybˇ er a z´ akladn´ı soubor

Jestliˇze informace potˇrebné k formulován´ı závˇer˚ u o základn´ım souboru nejsou k dispozici, je tˇreba provést studii k z´ıskán´ı informac´ı. Zhruba ˇreˇceno, existuj´ı dvˇe metody pro z´ıskán´ı informac´ı: vz´ıt v´ ybˇer nebo shromáˇzdit u ´daje o celém základn´ım souboru. V´ ybˇer je nejv´ıce rozˇs´ıˇren´ y zp˚ usob, nebot’ je levnˇejˇs´ı a rychlejˇs´ı neˇz sledován´ı celého základn´ıho souboru. Rozhodneme-li se pro v´ ybˇer, je tˇreba rozhodnout, jakou metodu pro v´ ybˇer ze základn´ıho souboru zvol´ıme. V u ´vahu mus´ıme vz´ıt skuteˇcnost, ˇze na základˇe informac´ı z´ıskan´ ych z v´ ybˇeru budeme dˇelat závˇery o celém základn´ım souboru. Tud´ıˇz rozhoduj´ıc´ı je, aby v´ ybˇer byl reprezentativn´ı, to znamená, ˇze mus´ı odráˇzet co moˇzná nejvˇernˇeji relevantn´ı charakteristiky základn´ıho souboru, kter´ y je pˇredmˇetem naˇseho zkoumán´ı. Napˇr´ıklad by nemˇelo velk´ y v´ yznam pouˇz´ıt pr˚ umˇernou v´ yˇsku v´ ybˇeru hráˇc˚ u basketbalu ˇ k formulován´ı závˇer˚ u o pr˚ umˇerné v´ yˇsce vˇsech dospˇel´ ych muˇz˚ u v CR. Prezidentské volby v roce 1936 v USA nám umoˇzn´ı uvˇedomit si, co se m˚ uˇze stát, nen´ı-li v´ ybˇer reprezentativn´ı. Pˇred volbami se snaˇzili vydavatelé ˇcasopisu Literary Digest pˇredpovˇedˇet v´ ysledek prezidentsk´ ych voleb. T´ ym pracovn´ık˚ u, zab´ yvaj´ıc´ı se pr˚ uzkumem, poloˇzil vybran´ ym voliˇc˚ um otázku, zda budou volit kandidáta demokrat˚ u D. Roosvelta nebo kandidáta republikán˚ u A. Landona. Na základˇe v´ ysledk˚ u pr˚ uzkumu ˇcasopis pˇredpovˇedˇel snadné v´ıtˇezstv´ı Landona. Skuteˇcn´ y v´ ysledek voleb byl, ˇze Roosvelt zv´ıtˇezil s takovou pˇrevahou, jaká nemˇela obdoby v historii prezidentsk´ ych voleb v USA. Co se stalo? Existuj´ı dva d˚ uvody proˇc pr˚ uzkum selhal: (1) V´ ybˇer byl proveden mezi lidmi, kteˇr´ı vlastnili automobil a mˇeli telefon. V roce 1936 tato skupina voliˇc˚ u byla sloˇzena pouze ze zámoˇznˇejˇs´ıch lid´ı a taková skupina lid´ı tradiˇcnˇe volila republikány. (2) Jen asi 25% osloven´ ych voliˇc˚ u odpovˇedˇelo na dotazn´ık. Následkem toho byl v´ ybˇer tak vych´ ylen´ y a nereprezentativn´ı, ˇze jeho pouˇzit´ı vedlo ke ˇspatnému odhadu v´ıtˇezstv´ı republikán˚ u. Nejmodernˇejˇs´ı postupy poˇrizován´ı v´ ybˇeru pouˇz´ıvaj´ı pravdˇ epodobnostn´ı v´ ybˇ ery, pˇri kter´ ych náhodné rozhodován´ı, napˇr´ıklad pomoc´ı tabulek náhodn´ ych ˇc´ısel, je vyuˇzito pro rozhodnut´ı, které statistické jednotky základn´ıho souboru budou tvoˇrit v´ ybˇer, m´ısto toho, aby se toto rozhodnut´ı ponechalo na lidském posouzen´ı. Samozˇrejmˇe, ˇze i v tomto pˇr´ıpadˇe m˚ uˇzeme dostat nereprezentativn´ı v´ ybˇer. Avˇsak pravdˇepodobnostn´ı v´ ybˇer vyluˇcuje zámˇernou jednostrannost v´ ybˇeru a dovoluje v´ yzkumn´ ym pracovn´ık˚ um kontrolovat moˇznost z´ıskán´ı nereprezentativn´ıho v´ ybˇeru.

1.2.1

Prost´ y n´ ahodn´ y v´ ybˇ er

Statistické inferenˇcn´ı metody, kter´ ymi se budeme v rámci tˇechto skript zab´ yvat, jsou urˇceny pouze pro pouˇzit´ı prost´ ych (jednoduch´ ych) n´ ahodn´ ych v´ ybˇ er˚ u. Definice 1.4

´ ´ V YB ´ ER ˇ P ROST Y´ N AHODN Y

Prosty´ nahodn y´ vybˇ y´ vybˇ y náhodn´ y v´ ybˇer, kdy pˇri jeho ´ ´ er nebo jen nahodn ´ ´ er je takov´

sestavován´ı mˇela kaˇzdá statistická jednotka základn´ıho souboru stejnou moˇznost b´ yt vybrána. Existuj´ı dva typy prostého náhodného v´ ybˇeru. Prost´ y n´ ahodn´ y v´ ybˇ er s vracen´ım, ve kterém kaˇzdá jednotka základn´ıho souboru m˚ uˇze b´ yt vybrána v´ıce neˇz jednou; jin´ y je prost´ y n´ ahodn´ y v´ ybˇ er bez vracen´ı, ve kterém kaˇzdá jednotka základn´ıho souboru m˚ uˇze 11

K APITOLA 1

P ODSTATA STATISTIKY

b´ yt vybrána nejv´ yˇse jednou. Pokud nebude ˇreˇceno jinak, budeme pˇredpokl´ adat, ˇze prostý n´ ahodný výbˇer je poˇr´ızen bez vracen´ı. Prost´ y náhodn´ y v´ ybˇer je nejjednoduˇsˇs´ı zp˚ usob v´ ybˇeru statistick´ ych jednotek. Provád´ı se pˇr´ımo a bez pˇredbˇeˇzn´ ych omezen´ı. Proto lze ve v´ ybˇeru poˇc´ıtat se vˇsemi mysliteln´ ymi napˇr. n-ˇclenn´ ymi kombinacemi statistick´ ych jednotek. Prost´ y náhodn´ y v´ ybˇer má také nˇekteré nev´ yhody. Napˇr´ıklad nám neukáˇze dokonale strukturu základn´ıho souboru a m˚ uˇze b´ yt nepraktick´ y a drah´ y, jsou-li statistické jednotky geograficky ˇsiroce roztrouˇseny. Uvedeme nˇekteré metody v´ ybˇeru, které jsou ˇcasto vhodnˇejˇs´ı neˇz prost´ y náhodn´ y v´ ybˇer.

1.2.2

Jin´ e metody v´ ybˇ eru

Jedna metoda v´ ybˇeru, kterou lze snadnˇeji realizovat neˇz prost´ y náhodn´ y v´ ybˇer, je systematick´ y n´ ahodn´ y v´ ybˇ er. Lze ji uplatnit, jsou-li jednotky základn´ıho souboru seˇrazeny náhodnˇe vzhledem ke sledovanému znaku. Tento v´ ybˇer prob´ıhá ve tˇrech kroc´ıch: (1) Vydˇel´ıme rozsah základn´ıho souboru rozsahem v´ ybˇeru a v´ ysledek zaokrouhl´ıme dol˚ u na nejbliˇzˇs´ı celé ˇc´ıslo m; (2) pomoc´ı tabulky náhodn´ ych ˇc´ısel (nebo obdobného zaˇr´ızen´ı) urˇc´ıme ˇc´ıslo k leˇz´ıc´ı mezi 1 a m; (3) z posloupnosti náhodnˇe seˇrazen´ ych jednotek vybereme ty statistické jednotky základn´ıho souboru, které maj´ı pˇriˇrazena ˇc´ısla k, k + m, k + 2m, · · · . Jiná alternativn´ı metoda k prostému náhodnému v´ ybˇeru je tzv. v´ ybˇ er skupin. Tato metoda prob´ıhá v následuj´ıc´ıch tˇrech kroc´ıch: (1) Základn´ı soubor se rozdˇel´ı do skupin (klastr˚ u); provede se prost´ y náhodn´ y v´ ybˇer skupin; (3) vˇsechny statistické jednotky skupiny vybrané v kroku (2) tvoˇr´ı náhodn´ y v´ ybˇer. Tento typ v´ ybˇeru ˇsetˇr´ı pen´ıze i ˇcas, ale má urˇcité nedostatky. V ideáln´ım pˇr´ıpadˇe by vybraná skupina mˇela odráˇzet charakteristické rysy celého základn´ıho souboru. Avˇsak to se vˇetˇsinou nestane, skupina je obvykle stejnorodˇejˇs´ı, neˇz základn´ı soubor jako celek. Dalˇs´ı metoda v´ ybˇeru známá jako stratifikovan´ y v´ ybˇ er je ˇcasto spolehlivˇejˇs´ı neˇz v´ ybˇer skupin. Pˇri realizaci stratifikovaného v´ ybˇeru je nejprve cel´ y základn´ı soubor rozdˇelen na nˇekolik d´ılˇc´ıch soubor˚ u, oblast´ı, pˇriˇcemˇz je snaha tvoˇrit tyto podsoubory tak, aby obsahovaly pokud moˇzno statistické jednotky stejn´ ych vlastnost´ı. T´ım doc´ıl´ıme, ˇze kaˇzdá oblast je sama o sobˇe stejnorodˇejˇs´ım celkem, neˇz p˚ uvodn´ı základn´ı soubor. V kaˇzdé oblasti se pak provede prost´ y náhodn´ y v´ ybˇer. Oblastmi mohou b´ yt napˇr. univerzity tˇr´ıdˇené podle zamˇeˇren´ı, podniky tˇr´ıdˇené podle urˇcit´ ych hledisek, domácnosti o r˚ uzném poˇctu ˇclen˚ u apod. Oblastn´ı v´ ybˇer je nároˇcnˇejˇs´ı ˇcasovˇe i finanˇcnˇe neˇz prost´ y náhodn´ y v´ ybˇer, je-li vˇsak správnˇe proveden, je u ´ˇcinnˇejˇs´ı a dává kvalitnˇejˇs´ı informace o základn´ım souboru neˇz prost´ y náhodn´ y v´ ybˇer. V´ıcestupˇ nov´ y n´ ahodn´ y v´ ybˇ er je kombinac´ı vˇsech pˇredcházej´ıc´ıch náhodn´ ych v´ ybˇer˚ u vˇcetnˇe prostého náhodného v´ ybˇeru. Problematika v´ ybˇerov´ ych ˇsetˇren´ı je velice rozsáhlá a pˇresahuje rámec tohoto uˇcebn´ıho textu. V´ıce se lze doˇc´ıst ve specializované statistické literatuˇre.

12

Kapitola 2 Popisn´ a statistika V této kapitole se budeme zab´ yvat popisnou statistikou. Nejprve ukáˇzeme, jak klasifikovat z´ıskané u ´daje podle typu, jak je uspoˇra´dat do tabulek a sumarizovat je pomoc´ı grafického zobrazen´ı. Pokraˇcovat budeme zkoumán´ım charakteristik, které m˚ uˇzeme pouˇz´ıt k popisu datov´ ych soubor˚ u.

2.1

Veliˇ ciny a data

Vlastnosti statistick´ ych jednotek, které se mˇen´ı od jedné jednotky ke druhé se naz´ yvaj´ı statistick´ e znaky nebo veliˇ ciny, pˇr´ıpadnˇe promˇ enn´ e. Zvol´ıme-li za statistickou jednotku osobu, lze tuto jednotku charakterizovat napˇr. znaky: v´ yˇska, váha, poˇcet sourozenc˚ u, barva oˇc´ı, nejvyˇsˇs´ı dosaˇzené vzdˇelán´ı, rodinn´ y stav apod. Statistické znaky m˚ uˇzeme rozdˇelit podle nˇekolika kritéri´ı, zejména podle toho, jak lze vyjádˇrit jejich obmˇeny. Prvn´ı tˇri v´ yˇse zm´ınˇené veliˇciny charakterizuj´ıc´ı osobu lze vyjádˇrit ˇc´ıselnou formou, poskytuj´ı tedy ˇc´ıselnou informaci a jsou pˇr´ıkladem kvantitativn´ıch veliˇ cin. Posledn´ı tˇri veliˇciny poskytuj´ı informaci, která nen´ı ˇc´ıselná, je dána slovn´ı definic´ı a tyto veliˇciny jsou pˇr´ıkladem kvalitativn´ıch veliˇ cin. Kvantitativn´ı veliˇciny mohou b´ yt diskrétn´ı (nespojité) nebo spojité. Diskr´ etn´ı veliˇ cina je taková veliˇcina, jej´ıˇz moˇzné hodnoty tvoˇr´ı koneˇcnou nebo spoˇcetnˇe nekoneˇcnou mnoˇzinu ˇc´ısel, obvykle mnoˇzinu cel´ ych ˇc´ısel. Poˇcet sourozenc˚ u nˇejaké osoby je pˇr´ıkladem diskrétn´ı veliˇciny. Spojité veliˇciny mohou nab´ yvat v rámci urˇcitého intervalu libovoln´ ych hodnot. V´ yˇska osoby je pˇr´ıklad spojité veliˇciny. Spojit´ a veliˇ cina je tud´ıˇz veliˇcina, jej´ıˇz moˇzné hodnoty tvoˇr´ı nˇejak´ y ˇc´ıseln´ y interval. Pˇredchoz´ı diskuse je shrnuta v definici 2.1. Definice 2.1

ˇ V ELI CINY

Veliˇcina: Charakteristika, kter´ a se mˇen´ı od jedné statistické jednotky ke druhé. Kvalitativn´ı veliˇcina: Veliˇ cina, kterou nelze vyjádˇrit ˇc´ıselnˇe. Kvantitativn´ı veliˇcina: Veliˇ cina, kterou lze vyjádˇrit ˇc´ıselnˇe. Diskretn´ cina, jej´ıˇz moˇzné hodnoty tvoˇr´ı koneˇcnou nebo ´ ı veliˇcina: Kvantitativn´ı veliˇ

spoˇcetnˇe nekoneˇcnou mnoˇzinu ˇc´ısel. Spojita´ veliˇcina: Kvantitativn´ı veliˇ cina, jej´ıˇz moˇzné hodnoty tvoˇr´ı nˇejak´ y ˇc´ıseln´ y interval. Pozorován´ım nebo mˇeˇren´ım hodnot veliˇciny na nˇekolika statistick´ ych jednotkách z´ıskáme vstupn´ı data nebo jen data. Data jsou tud´ıˇz informace, které statistikové shromaˇzd’uj´ı, tˇr´ıd´ı 13

K APITOLA 2


a analyzuj´ı. Názvy kvalitativn´ı, kvantitativn´ı, diskrétn´ı a spojité pouˇz´ıváme rovnˇeˇz k popisu dat stejnˇe jako veliˇcin: kvalitativn´ı data jsou data z´ıskaná pozorován´ım, mˇeˇren´ım kvalitativn´ı veliˇciny, apod. Soubor vˇsech pozorovan´ ych hodnot sledovaného statistického znaku, které máme k dispozici, budeme naz´ yvat datov´ y soubor nebo mnoˇ zina dat. Mnoˇzinu vˇsech statistick´ ych jednotek, u nichˇz zkoumáme pˇr´ısluˇsné statistické znaky, naz´ yváme statistick´ y soubor. Zjiˇst’ujeme-li u kaˇzdé statistické jednotky pouze jeden statistick´ y znak, z´ıskáme soubor jednorozmˇ ern´ y. Zjiˇst’ujeme-li u kaˇzdé jednotky dva nebo v´ıce znak˚ u a zkoumáme-li souˇcasnˇe jejich vzájemné vztahy, z´ıskáme statistick´ y soubor v´ıcerozmˇ ern´ y. Statistick´ y soubor vˇsech jednotek, kter´ y je vlastn´ım pˇredmˇetem sledován´ı, o nˇemˇz chceme provádˇet závˇery, se naz´ yvá z´ akladn´ı soubor nebo populace, jak jsme se jiˇz zm´ınili v kapitole 1.

2.2 2.2.1

Element´ arn´ı zpracov´ an´ı statistick´ ych dat Tˇ r´ıdˇ en´ı dat

V´ ysledkem statistického ˇsetˇren´ı je zpravidla velké mnoˇzstv´ı ˇc´ıseln´ ych u ´daj˚ u, které jsou vˇetˇsinou nepˇrehledné. Aby vynikly charakteristické rysy a zákonitosti analyzovaného souboru a aby se u ´daje staly pˇrehledn´ ymi, mus´ıme je setˇr´ıdit. Tˇ r´ıdˇ en´ım tedy rozum´ıme rozdˇelen´ı statistick´ ych jednotek souboru do takov´ ych skupin, aby co nejlépe vynikly charakteristické vlastnosti zkouman´ ych jev˚ u. Tˇr´ıdˇen´ı je tedy metoda pro uspoˇra´dán´ı u ´daj˚ u do pˇrehledné formy a také jejich zhuˇstˇen´ı. Provád´ıme-li tˇr´ıdˇen´ı pouze podle obmˇen jednoho statistického znaku, mluv´ıme o jednostupˇ nov´ em tˇ r´ıdˇ en´ı. Provád´ıme-li tˇr´ıdˇen´ı podle v´ıce statistick´ ych znak˚ u najednou, jde o tˇ r´ıdˇ en´ı v´ıcestupˇ nov´ e. Pˇ r´ıklad 2.1 Tˇr´ıdˇen´ı dat ´ ´ ıc´ıch do splatnosti 40 kratkodob ´ ´ eru. ˚ Z´ıskali jsme udaje o poˇctu dn´ı zbyvaj´ y´ ch uvˇ 70 64 99 55 64 89 87 65 62 38 67 70 60 69 78 39 75 56 71 51 99 68 95 86 57 53 47 50 55 81 80 98 51 36 63 66 85 79 83 70 ´ ´ Tyto udaje jsou znaˇcnˇe nepˇrehledné a ani zkuˇsený pracovn´ık z nich nez´ıska´ zakladn´ ı infor´ eru˚ podle doby zby´ vaj´ıc´ı do splatnosti. Rozdˇelen´ım dat do skupin muˇ ˚ zeme mace o rozdˇelen´ı uvˇ ´ dosahnout toho, zˇe data se stanou mnohem pˇrehlednˇejˇs´ı. Nejprve rozhodneme, jak velké tˇr´ıdy ´ ery do tˇr´ıd o délce 10 dn´ı. Vzhledem k tomu, zˇe zvol´ıme. V tomto pˇr´ıkladu je vhodné rozdˇelit uvˇ ´ ´ nejmenˇs´ı udaj je 36 a nejvˇetˇs´ı 99, rozdˇelen´ım udaj u˚ do 10 tˇr´ıd dostaneme tˇr´ıdy 30–39, 40–49, 50–59, 60–69, 70–79, 80–89, 90–99. Dalˇs´ım a posledn´ım krokem pˇri tˇr´ıdˇen´ı dat je stanoven´ı, ´ eru ˚ pˇripada´ na kaˇzdou tˇr´ıdu. Napˇr´ıklad poˇcet uvˇ ´ eru, ˚ pro které doba zbyvaj´ ´ ıc´ı do jaky´ poˇcet uvˇ splatnosti leˇz´ı mezi 60–69 dny je 10. Kdybychom provedli rozdˇelen´ı do tˇr´ıd 30–40, 40–50, 50–60 atd., mˇeli bychom problém, do ´ er, kterému chyb´ı 50 dn´ı do splatnosti. Tento problém nevznikne které tˇr´ıdy zaˇradit napˇr´ıklad uvˇ ˚ pˇri zpusobu tˇr´ıdˇen´ı uvedeném vy´ sˇ e.

Pˇri tˇr´ıdˇen´ı dat do tˇr´ıd v pˇr´ıkladu 2.1 jsme se ˇridili urˇcit´ ymi zásadami, které maj´ı obecnou platnost. Uvedeme ty nejd˚ uleˇzitˇejˇs´ı. 1. Poˇcet tˇr´ıd nemá být pˇr´ıliˇs malý, aby to nevedlo k velmi zjednoduˇsenému pohledu na vlastnosti souboru a nemˇel by být pˇr´ıliˇs velký, nebot’ by se mohlo stát, ˇze se zpracov´ an´ı stane nepˇrehledným a zaniknou zákonitosti charakteristické pro daný soubor.

14

´ Í ZPRACOV AN ´ Í STATISTICK YCH ´ 2.2 E LEMENT ARN DAT

Pˇri urˇcován´ı poˇctu tˇr´ıd se snaˇz´ıme potlaˇcit náhodné kol´ısán´ı ˇcetnost´ı, ale zároveˇ n nesm´ıme setˇr´ıt charakteristické rysy. Na stanoven´ı poˇctu tˇr´ıd neexistuje jednotn´ y názor ani obecn´ y pˇredpis. 2. Jednotlivé pozorované hodnoty znaku patˇr´ı do jedné a jen jedné tˇr´ıdy. Tento problém je spojen s otázkou, jak urˇcovat hranice tˇr´ıd, aby bylo moˇzné jednotlivé hodnoty zaˇradit do pˇr´ısluˇsn´ ych tˇr´ıd jednoznaˇcnˇe. 3. Pokud je to moˇzné, stanov´ıme shodnou ˇs´ıˇrku pro vˇsechny tˇr´ıdy. V pˇr´ıpadˇe jednostupˇ nového tˇr´ıdˇen´ı tud´ıˇz uspoˇra´dáme u ´daje o zkoumaném kvantitativn´ım znaku do rostouc´ı posloupnosti, rozd´ıl mezi maximáln´ı a minimáln´ı zjiˇstˇenou hodnotou znaku rozdˇel´ıme na urˇcit´ y poˇcet interval˚ u, které naz´ yváme tˇ r´ıdn´ı intervaly nebo tˇ r´ıdy a mluv´ıme o intervalov´ em tˇ r´ıdˇ en´ı. Kaˇzdému intervalu pˇriˇrad´ıme poˇcet statistick´ ych jednotek s hodnotou znaku, kter´ y patˇr´ı do pˇr´ısluˇsné tˇr´ıdy. Rozdˇ elen´ı ˇ cetnost´ı a relativn´ıch ˇ cetnost´ı Poˇcet statistick´ ych jednotek s hodnotou znaku, kter´ y patˇr´ı do urˇcité tˇr´ıdy, naz´ yváme absolutn´ı ˇ cetnost´ı nebo jen ˇ cetnost´ı tˇr´ıdy. V pˇr´ıkladu 2.1 o krátkodob´ ych u ´vˇerech je ˇc´ıslo 10 ˇcetnost tˇr´ıdy 60–69, zat´ımco ˇc´ıslo 7 je ˇcetnost tˇr´ıdy 70–79 a také tˇr´ıdy 80–89. Pod´ıl pˇr´ısluˇsné ˇcetnosti a rozsahu datového souboru se naz´ yvá relativn´ı (pomˇ ern´ a) ˇ cetnost. Napˇr´ıklad relativn´ı ˇcetnost tˇr´ıdy 50–59 je 8/40 = 0.2. Poznamenejme, ˇze souˇcet relativn´ıch ˇcetnost´ı vˇsech tˇr´ıd je roven jedné. Tabulku, do které uspoˇrádáváme ˇcetnosti resp. relativn´ı ˇcetnosti, naz´ yváme tabulkou rozdˇ elen´ı ˇ cetnost´ı resp. tabulkou rozdˇ elen´ı relativn´ıch ˇ cetnost´ı. Chceme-li mezi sebou porovnávat r˚ uzné datové soubory, liˇsic´ı se sv´ ym rozsahem, je vhodnˇejˇs´ı pouˇz´ıt relativn´ı ˇcetnosti neˇz absolutn´ı ˇcetnosti. Je to z toho d˚ uvodu, ˇze relativn´ı ˇcetnost je ˇc´ıslo mezi 0 a 1 a tud´ıˇz m˚ uˇze b´ yt kriteriem pro porovnán´ı. Dva datové soubory maj´ıc´ı shodné rozdˇelen´ı ˇcetnost´ı, budou m´ıt shodné rozdˇelen´ı relativn´ıch ˇcetnost´ı. Ale dva datové soubory maj´ıc´ı shodné rozdˇelen´ı relativn´ıch ˇcetnost´ı, budou m´ıt shodné rozdˇelen´ı ˇcetnost´ı jen v pˇr´ıpadˇe, ˇze oba datové soubory maj´ı stejn´ y rozsah. Kromˇe uveden´ ych dvou zp˚ usob˚ u konstrukce rozdˇelen´ı ˇcetnost´ı, konstruujeme téˇz rozdˇelen´ı kumulativn´ıch ˇcetnost´ı a kumulativn´ıch relativn´ıch ˇcetnost´ı, které podávaj´ı informaci o tom, kolik jednotek souboru, resp. jaká pomˇerná ˇca´st souboru má hodnotu sledované veliˇciny menˇs´ı nebo rovnu urˇcité dané hodnotˇe. Napˇr´ıklad pro data z pˇr´ıkladu 2.1 zjist´ıme, ˇze kumulativn´ı ˇcetnost u ´vˇer˚ u s dobou splatnosti kratˇs´ı neˇz 50 dn´ı je 3+1=4, takˇze 4 u ´vˇery maj´ı dobu splatnosti kratˇs´ı neˇz 50 dn´ı. Dále zjist´ıme, ˇze kumulativn´ı relativn´ı ˇcetnost u ´vˇer˚ u s dobou splatnosti kratˇs´ı neˇz 50 dn´ı je 4/40 = 0.10, to znamená, ˇze 10% u ´vˇer˚ u má dobu splatnosti menˇs´ı neˇz 50 dn´ı. Terminologie pouˇ z´ıvan´ a pˇ ri tˇ r´ıdˇ en´ı Vrat’me se opˇet k pˇr´ıkladu 2.1. Uvaˇzujme napˇr´ıklad tˇr´ıdu 50–59. Nejmenˇs´ı poˇcet dn´ı do splatnosti je 50. Tato hodnota se naz´ yvá doln´ı hranice tˇ r´ıdy. Nejvˇetˇs´ı doba splatnosti v této tˇr´ıdˇe je 59. Tato hodnota se naz´ yvá horn´ı hranice tˇ r´ıdy. Prostˇredn´ı hodnota tˇr´ıdy 50–59 je (50 + 59)/2 = 54.5 a naz´ yvá se stˇ red tˇ r´ıdy. Stˇredy tˇr´ıd nám umoˇzn ˇuj´ı reprezentaci jednotliv´ ych tˇr´ıd pomoc´ı jediného ˇc´ısla a nˇekdy se pouˇz´ıvaj´ı pˇri grafickém zobrazován´ı a pˇri poˇc´ıtán´ı popisn´ ych mˇer. ˇ S´ıˇrka tˇr´ıdy 50–59 z´ıskaná odeˇcten´ım své doln´ı hranice od doln´ı hranice sousedn´ı vyˇsˇs´ı tˇr´ıdy, je 60 − 50 = 10 a naz´ yvá se ˇ s´ıˇ rka tˇ r´ıdy. 15


K APITOLA 2

V definici 2.2 jsou shrnuty základn´ı pojmy pouˇz´ıvané pˇri tˇr´ıdˇen´ı dat. Definice 2.2

ˇ P OJMY POU Zˇ Í VAN E´ P RI

ˇ Í D Eˇ N Í DAT TR

Tˇr´ıdy: Skupiny, do kter´ ych jednotlivá data rozdˇelujeme. Doln´ı hranice tˇr´ıdy: Nejmenˇs´ı hodnota kter´ a patˇr´ı do pˇr´ısluˇsné tˇr´ıdy. Horn´ı hranice tˇr´ıdy: Nejvˇ etˇs´ı hodnota, která patˇr´ı do do pˇr´ısluˇsné tˇr´ıdy. Stˇred tˇr´ıdy: Stˇred pˇr´ısluˇsn´ e tˇr´ıdy. ˇ ıˇrka tˇr´ıdy: Doln´ı hranici dan´ S´ e tˇr´ıdy odeˇcteme od doln´ı hranice sousedn´ı vyˇsˇs´ı tˇr´ıdy. ˇ Cetnost tˇr´ıdy: Poˇ cet jednotliv´ ych dat v dané tˇr´ıdˇe. Relativn´ı cˇetnost tˇr´ıdy: Pod´ıl ˇ cetnosti tˇr´ıdy a celkového poˇctu dat v datovém souboru. Kumulativn´ı cˇetnost: Souˇ cet ˇcetnost´ı vˇsech tˇr´ıd reprezentuj´ıc´ıch vˇsechny hodnoty menˇs´ı

neˇz horn´ı hranice pˇr´ısluˇsné tˇr´ıdy. Kumulativn´ı relativn´ı cˇetnost tˇr´ıdy: Pod´ıl kumulativn´ı ˇ cetnosti a celkového poˇctu dat

v souboru. Nyn´ı uvedeme v´ ypoˇcetn´ı vzorce pro ˇcetnosti. Necht’ {x1 , · · · , xn } jsou pozorován´ı urˇcitého statistického znaku x, xj ∈ (a, bi, j = 1, · · · , n a = a0 < a1 < · · · < ak = b. Interval (a, bi ˇıˇrka i-té tˇr´ıdy je pak rozdˇel´ıme na k disjunktn´ıch podinterval˚ u (ai−1 , ai i, i = 1, 2, · · · , k. S´ rozd´ıl mezi horn´ı hranic´ı intervalu (ai−1 , ai i a horn´ı hranic´ı sousedn´ıho intervalu (ai−2 , ai−1 i. ˇ Cetnost i-té tˇr´ıdy ni je poˇcet pozorován´ı xj , pro která plat´ı ai−1 < xj ≤ ai . Tabulka 2.1 Rozdˇelen´ı ˇcetnost´ı a kumulativn´ıch ˇcetnost´ı Interval (ai−1 , ai i (a0 , a1 i (a1 , a2 i ... (ak−1 , ak i Celkem

ˇ Cetnost absolutn´ı relativn´ı ni pi n1 p1 n2 p2 ... ... nk pk Pk Pk i=1 ni = n i=1 pi = 1

Kumulativn´ı ˇcetnost absolutn´ı relativn´ı Ni Pi n1 p1 n1 + n2 p1 + p2 ... ... Pk Pk n i=1 i i=1 pi

Stˇred tˇr´ıdy yi y1 y2 yk

V´ ypoˇ cetn´ı vzorce pro ˇ cetnosti a kumulativn´ı ˇ cetnosti Relativn´ı ˇcetnost i-té tˇr´ıdy pi : Pod´ıl ˇcetnosti ni i-té tˇr´ıdy a poˇctu n vˇsech dat v datovém souboru. k X ni pi = 1. (2.1) pi = , n i=1 Kumulativn´ı ˇcetnost i-té tˇr´ıdy Ni : Poˇcet vˇsech xj , pro která plat´ı a0 < xj ≤ ai : Ni =

i X

nr ,

1 ≤ r ≤ k.

(2.2)

r=1

Kumulativn´ı relativn´ı ˇcetnost i-té tˇr´ıdy Pi : Pod´ıl kumulativn´ı ˇcetnost i-té tˇr´ıdy, Ni a poˇctu n vˇsech dat v souboru. Nebo ekvivalentnˇe, souˇcet relativn´ıch ˇcetnost´ı vˇsech tˇr´ıd od 1. tˇr´ıdy aˇz po i-tou tˇr´ıdu. Pi =

i X

pr ,

1 ≤ r ≤ k.

r=1

16

(2.3)


Tabulku, ve které jsou uvedeny tˇr´ıdy, ˇcetnosti, relativn´ı ˇcetnosti, kumulativn´ı ˇcetnosti, kumulativn´ı relativn´ı ˇcetnosti a stˇredy tˇr´ıd pro datov´ y soubor budeme naz´ yvat tabulkou intervalov´ eho tˇ r´ıdˇ en´ı dat. Oznaˇcme yi stˇred i-té tˇr´ıdy. Rozdˇelen´ı ˇcetnost´ı a kumulativn´ıch ˇcetnost´ı je uvedeno v následuj´ıc´ı tabulce 2.1. Pro data z pˇr´ıkladu 2.1 nyn´ı uvedeme tabulku intervalového tˇr´ıdˇen´ı. ˇ Tabulka 2.2 Cetnosti a kumulativn´ı ˇcetnosti pro dobu splatnosti krátkodobých u ´vˇer˚ u ˇ Poˇcet dn´ı Relativn´ı Kumulativn´ı Kumul.relativn´ı Stˇred Cetnost do splatnosti (poˇcet u ´vˇer˚ u) ˇcetnost ˇcetnost ˇcetnost tˇr´ıdy 30–39 3 0.075 3 0.075 34.5 40–49 1 0.025 4 0.100 44.5 50–59 8 0.200 12 0.300 54.5 60–69 10 0.250 22 0.550 64.5 70–79 7 0.175 29 0.725 74.5 80–89 7 0.175 36 0.900 84.5 90–99 4 0.100 40 1.000 94.5 Celkem 40 1 Jednoduch´ e tˇ r´ıdˇ en´ı Kaˇzdá tˇr´ıda, kterou jsme doposud pouˇzili pˇri tˇr´ıdˇen´ı dat, reprezentovala nˇekolik moˇzn´ ych ˇc´ıseln´ ych hodnot. Pˇri zpracován´ı u ´daj˚ u diskrétn´ıho statistického znaku, kter´ y nab´ yvá pouze urˇcitého poˇctu obmˇen, je nˇekdy vhodnˇejˇs´ı pouˇz´ıt takové tˇr´ıdy, kdy vˇsechny reprezentuj´ı jednu moˇznou ˇc´ıselnou hodnotu. Pak hovoˇr´ıme o jednoduch´ em tˇ r´ıdˇ en´ı. Máme-li k dispozici u ´daje o spojitém statistickém znaku, nebo o znaku, kter´ y je sice diskrétn´ı, ale m˚ uˇze nab´ yvat velkého poˇctu nejr˚ uznˇejˇs´ıch obmˇen, pak radˇeji konstruujeme intervalové rozdˇelen´ı ˇcetnost´ı. Pˇ r´ıklad 2.2 Jednoduché tˇr´ıdˇen´ı ˚ ´ V jednom malém mˇestˇe byl proveden pruzkum poˇctu dˇet´ı sˇ koln´ıho vˇeku v rodinˇe. Bylo nahodnˇ e ´ ´ vybrano 15 rodin. Poˇcet dˇet´ı sˇ koln´ıho vˇeku v kaˇzdé z 15 vybrany´ ch rodin je nasleduj´ ıc´ı. 2 0 4 2 0 1 0 1 0 0 4 0 1 3 2 ´ ame ´ ´ Uspoˇrad tyto udaje do tabulky rozdˇelen´ı cˇ etnost´ı. Poˇcet dˇet´ı sˇ koln´ıho vˇeku 0 1 2 3 4 Celkem

ˇ Cetnost absolutn´ı relativn´ı 6 0.400 3 0.200 3 0.200 1 0.067 2 0.133 15 1.000

Kumulativn´ı cˇ etnost absolutn´ı relativn´ı 6 0.400 9 0.600 12 0.800 13 0.867 15 1.000

Rozdˇ elen´ı ˇ cetnost´ı pro kvalitativn´ı data Pojmy jako doln´ı a horn´ı hranice tˇr´ıdy nebo stˇred tˇr´ıdy jsou pouˇzitelné pro kvantitativn´ı data, nejsou vˇsak vhodné pro kvalitativn´ı data jako napˇr´ıklad pˇri práci s u ´daji pro zaˇrazován´ı lid´ı do tˇr´ıd podle toho, zda jde o muˇze nebo ˇzenu. I v tomto pˇr´ıpadˇe vˇsak m˚ uˇzeme urˇcovat ˇcetnosti a relativn´ı ˇcetnosti.

17


K APITOLA 2

Pˇ r´ıklad 2.3 Rozdˇelen´ı ˇcetnost´ı pro kvalitativn´ı data ´ ´ ´ ˚ bylo dotaz ´ ano, ´ ´ a´ 40 nahodnˇ e vybranych dospˇelych obˇcanu jakému dopravn´ımu prostˇredku dav ´ pˇrednost pˇri cestach na dovolenou do zahraniˇc´ı. Urˇcete rozdˇelen´ı cˇ etnost´ı pro data, ktera´ jsou ´ uvedena v nasleduj´ ıc´ı tabulce. (Osobn´ı automobil (A), autobus (B), letadlo (L), ostatn´ı (O)). O B A B B A B A L B B B A A A O O O B A A O L A L O B B A O O L B B B B B B A A ˚ Tabulka cˇ etnost´ı a relativn´ıch cˇ etnost´ı pouˇzit´ı dopravn´ıch prostˇredku: Dopravn´ı prostˇredek Osobn´ı automobil Autobus Letadlo Ostatn´ı Celkem

2.2.2

ˇ Cetnost 12 16 4 8 40

Relativn´ı cˇ etnost 0.30 0.40 0.10 0.20 1.000

Statistick´ e grafy

Vedle statistick´ ych tabulek je d˚ uleˇzitou formou zobrazován´ı statistick´ ych u ´daj˚ u graf. Grafické zobrazen´ı dává rychlou a pˇrehlednou pˇredstavu o tendenc´ıch a charakteristick´ ych rysech analyzovan´ ych jev˚ u. Grafy jsou také u ´ˇcinn´ ym popularizaˇcn´ım prostˇredkem statistick´ ych v´ ysledk˚ u. Z hlediska konstrukce lze grafy rozdˇelit do r˚ uzn´ ych skupin. O nˇekter´ ych se zde zm´ın´ıme. Histogramy pro intervalov´ e tˇ r´ıdˇ en´ı Uvaˇzujme pro ilustraci tˇr´ıdˇen´ı doby splatnosti krátkodob´ ych u ´vˇer˚ u (pˇr´ıklad 2.1). V tabulce 2.2 jsou data uspoˇra´daná do tˇr´ıd. C´ılem je grafické zobrazen´ı takto roztˇr´ıdˇen´ ych dat. Jeden zp˚ usob jak zobrazit tato data, je sestrojit graf, v nˇemˇz jsou tˇr´ıdy zobrazeny v pravo´ uhlé souˇradnicové soustavˇe na vodorovnou osu a ˇcetnosti na svislou osu. M˚ uˇzeme to udˇelat pomoc´ı histogramu ˇ cetnost´ı. Je na obr. 2.1(a). Obr´ azek 2.1 Histogramy pro poˇcet dn´ı po splatnosti krátkodobých u ´vˇer˚ u 10

0.25

Relativn´ı ˇcetnost

9 8

ˇ Cetnost

7 6 5 4 3 2

0.20 0.15 0.10 0.05

1 10

30

50

70

90

10

Poˇcet dn´ı po splatnosti

30

50

70

90

Poˇcet dn´ı po splatnosti

(a) histogram ˇcetnost´ı

(b) histogram relativn´ıch ˇcetnost´ı

V´ yˇska kaˇzdého sloupce je rovna ˇcetnosti tˇr´ıdy, kterou reprezentuje. Kaˇzd´ y sloupek je um´ıstˇen 18


mezi doln´ı hranici tˇr´ıdy a doln´ı hranici nejbliˇzˇs´ı vyˇsˇs´ı tˇr´ıdy. Histogram ˇcetnost´ı zobrazuje ˇcetnosti tˇr´ıd. K zobrazen´ı relativn´ıch ˇcetnost´ı m˚ uˇzeme pouˇz´ıt histogram relativn´ıch ˇ cetnost´ı, kter´ y je podobn´ y histogramu ˇcetnost´ı. Jedin´ y rozd´ıl je v tom, ˇze v´ yˇska kaˇzdého sloupku v tomto histogramu je rovna relativn´ı ˇcetnosti tˇr´ıdy m´ısto ˇcetnosti tˇr´ıdy. Histogram relativn´ıch ˇcetnost´ı pro data z pˇr´ıkladu 2.1 je na obr. 2.1(b). Poznamenejme, ˇze tvary histogramu relativn´ıch ˇcetnost´ı na obr. 2.1(b) a histogramu ˇcetnost´ı na obr. 2.1(a) jsou shodné. Nyn´ı uvedeme formáln´ı definice histogramu ˇcetnost´ı a histogramu relativn´ıch ˇcetnost´ı. Definice 2.3

ˇ Í A RELATIVN Í CH CETNOST ˇ Í H ISTOGRAM CETNOST

Histogram cˇetnost´ı: Graf, kter´ y v pravo´ uhlé souˇradnicové soustavˇe zobrazuje tˇr´ıdy na

ˇ vodorovnou osu a ˇcetnosti tˇr´ıd na svislou osu. Cetnost kaˇzdé tˇr´ıdy je reprezentována sloupcem, jehoˇz v´ yˇska je rovna ˇcetnosti tˇr´ıdy. Histogram relativn´ıch cˇetnost´ı: Graf, kter´ y v pravo´ uhlém souˇradnicové soustavˇe zobrazuje tˇr´ıdy na vodorovnou osu a relativn´ı ˇcetnosti tˇr´ıd na svislou osu. Relativn´ı ˇcetnost kaˇzdé tˇr´ıdy je reprezentována svisl´ ym sloupcem, jehoˇz v´ yˇska je rovna relativn´ı ˇcetnosti tˇr´ıdy.

1.0 0.9

kumulativn´ı ˇcetnost relativn´ı ˇcetnost

0.8 0.7 0.6 0.5 0.4 0.3 0.2

Obr´ azek 2.3 Bodový graf Bodov´ e grafy Dalˇs´ı typ grafického znázornˇen´ı pro kvantitativn´ı data je bodov´ y graf. Bodové grafy pouˇz´ıvaj´ı jako grafické prostˇredky body um´ıstˇené v souˇradnicové soustavˇe. Jsou zvláˇstˇe uˇziteˇcné pro znázornˇen´ı relativn´ı polohy jednoho u ´daje v souboru vˇsech dat, která jsou k dispozici pro 1 2 3 4 5 danou u ´lohu, nebo pro porovnán´ı dvou nebo v´ıce datov´ ych soubor˚ u. Bodov´ y graf pro data z pˇr´ıkladu 2.2 je na obrázku 2.3.

19

94.5

84.5

74.5

64.5

54.5

44.5

34.5

0.1 24.5

Polygony ˇ cetnost´ı a kumulativn´ıch ˇ cetnost´ı Dalˇs´ı velice ˇcasto pouˇz´ıvané grafické znázornˇen´ı ˇcetnost´ı je polygon ˇcetnost´ı. Polygon ˇ cetnost´ı je graf, kter´ y vznikne tak, ˇze v pravo´ uhlé souˇradnicové soustavˇe spoj´ıme u ´seˇckami body o souˇradnic´ıch (yi , ni ), resp. (yi , pi ), kde yi je stˇred i-té tˇr´ıdy a ni resp. (pi ) je ˇcetnost i-té tˇr´ıdy resp. relativn´ı ˇcetnost. Nahrad´ımeli ˇcetnosti odpov´ıdaj´ıc´ımi kumulativn´ımi ˇcetnostmi, dostaneme polygon kumulativn´ıch ˇ cetnost´ı. Pro u ´daje z pˇr´ıkladu 2.1 je polygon relativn´ıch ˇcetnost´ı a kumulativn´ıch relativn´ıch ˇcetnost´ı uveden na obr. 2.2.

Obr´ azek 2.2 Polygony ˇcetnost´ı

14.5

Histogramy pro jednoduch´ e tˇ r´ıdˇ en´ı Konstrukce histogramu je trochu odliˇsná pˇri jednoduchém tˇr´ıdˇen´ı dat, kdy tˇr´ıdy jsou zaloˇzeny pouze na jedné hodnotˇe statistického znaku. V tomto pˇr´ıpadˇe um´ıst´ıme stˇred kaˇzdého sloupce histogramu pˇr´ımo do jediné ˇc´ıselné hodnoty, která reprezentuje tˇr´ıdu.

K APITOLA 2


Z obrázku je patrné, ˇze bodové grafy jsou podobné histogram˚ um. Pokud provedeme jednoduché tˇr´ıdˇen´ı dat, pak oba jsou vpodstatˇe identické. Konstrukce bodov´ ych graf˚ u je jednoduˇsˇs´ı. Kruhov´ e diagramy a sloupkov´ e grafy Histogramy, polygony a bodové grafy slouˇz´ı k znázorˇ nován´ı kvantitativn´ıch dat. Kvalitativn´ı dat se zobrazuj´ı pomoc´ı odliˇsné techniky. Dvˇe nejˇcastˇeji pouˇz´ıvané metody pro znázornˇen´ı kvalitativn´ıch dat jsou kruhové diagramy nebo téˇz naz´ yvané koláˇcové grafy a sloupkové grafy. Kruhov´ y diagram je kruh rozdˇelen´ y na ˇcásti ve tvaru kousk˚ u koláˇce“, které z´ıskáme ” rozdˇelen´ım stˇredového u ´hlu kruˇznice u ´mˇernˇe k pod´ılu jednotliv´ ych ˇca´st´ı zobrazovaného jevu vyjádˇren´ ych v procentech. Sloupkov´ y graf je podobn´ y histogramu aˇz na to, ˇze jeho sloupky se nedot´ ykaj´ı jeden druhého. Kruhov´ y diagram a sloupkov´ y graf pro rozdˇelen´ı relativn´ıch ˇcetnost´ı z pˇr´ıkladu 2.3 jsou znázornˇeny na obr. 2.4 (a) a (b). Obr´ azek 2.4 Dopravn´ı preference

Relativn´ı ˇcetnost

0.4

ostatn´ı (20%) letadlo (10%) autobus (40%)

0.3 0.2

ostatn´ı

letadlo

auto

(a) kruhov´ y diagram

autobus

0.1

auto (30%)

(b) sloupkov´ y graf

Stem-and-Leaf diagramy (stonek s listy, ˇ c´ıslicov´ y dendrogram) Stem-and-leaf diagram je obdoba histogramu ˇcetnost´ı. Konstrukce tohoto diagramu b´ yvá ˇcasto jednoduˇsˇs´ı neˇz konstrukce histogramu ˇcetnost´ı a obecnˇe zobrazuje v´ıce informac´ı neˇz histogram ˇcetnost´ı. Pro u ´daje v tabulce k pˇr´ıkladu 2.1 z´ıskáme tento diagram tak, ˇze si nejprve vybereme z dat tzv. ˇr´ıd´ıc´ı ˇc´ıslice. Dostaneme tak ˇc´ısla 3, 4, · · · , 9 a zap´ıˇseme je do 1. sloupce. Pak postupnˇe procház´ıme data a nap´ıˇseme koncovou ˇc´ıslici kaˇzdého ˇc´ısla vpravo ˇ ıd´ıc´ı ˇc´ıslice se naz´ od ˇr´ıd´ıc´ı ˇc´ıslice. R´ yvaj´ı stems (stonky) a koncové ˇc´ıslice leaves (listy). Jin´ y tvar stem-and-leaf diagramu je tzv. uspoˇ r´ adan´ y stem-and-leaf diagram. V tomto diagramu jsou listy v kaˇzdém ˇra´dku uspoˇrádány od nejmenˇs´ıho k nejvˇetˇs´ımu. Stem-and-leaf diagram resp. uspoˇra´dan´ y stem-and-leaf diagram je zobrazen pro data v pˇr´ıkladu 2.1 na obr. 2.5 (a) resp. (b).

20


Obr´ azek 2.5 Poˇcet dn´ı do splatnosti u ´vˇeru Stems 3 4 5 6 7 8 9

Leaves 8 6 9 7 7 1 6 2 4 7 0 5 1 5 9 1 9 9 5

3 3 0 7 8

5 6 9 0

1 4 8 3

0 5 0 9 8 5 0 6

(a) stem-and-leaf diagram

2.2.3

Stems 3 4 5 6 7 8 9

Leaves 6 8 9 7 0 1 1 0 2 3 0 0 0 0 1 3 5 8 9

3 4 1 5 9

5 4 5 6

5 5 8 7

6 7 6 7 8 9 9 9

(b) uspoˇr´ adan´ y stem-and-leaf diagram

Tvar rozdˇ elen´ı ˇ cetnost´ı; symetrie a ˇ sikmost

D˚ uleˇzit´ ym aspektem rozdˇelen´ı ˇcetnost´ı datového souboru je jeho tvar. Pozdˇeji uvid´ıme, ˇze tvar rozdˇelen´ı ˇcetnost´ı hraje ˇcasto d˚ uleˇzitou roli pˇri urˇcen´ı vhodné metody statistické anal´ yzy. V odstavci 2.2.2 jsme se seznámili s metodami grafického znázornˇen´ı dat, mezi nimi s histogramy, polygony a diagramy. Pˇri diskusi o tvarech rozdˇelen´ı je vhodnˇejˇs´ı pouˇz´ıvat hladkou kˇrivku jako aproximaci tvaru rozdˇelen´ı. Napˇr´ıklad obr. 2.1 zobrazuje histogram relativn´ıch ˇcetnost´ı pro poˇcet dn´ı zb´ yvaj´ıc´ıch do splatnosti krátkodob´ ych u ´vˇer˚ u. Zároveˇ n znázorˇ nuje i hladkou kˇrivku, která aproximuje tvar rozdˇelen´ı. Tvary rozdˇ elen´ı ˇ cetnost´ı Obrázek 2.6 na stranˇe 22 zobrazuje nˇekteré bˇeˇzné tvary rozdˇelen´ı: tvar zvonu, troju ´ heln´ıkov´ y, rovnomˇ ern´ y (rektangulárn´ı), ve tvaru p´ısmene J, tvaru obr´ acen´ eho J, vpravo seˇ sikmen´ e (vpravo protaˇzené), vlevo seˇ sikmen´ e (vlevo protaˇzené), bimod´ aln´ı, v´ıcemod´ aln´ı. V praxi maj´ı rozdˇelen´ı jen zˇr´ıdka tyto uvedené idealizované tvary. Modalita Zkoumáme-li tvar rozdˇelen´ı, je vhodné zjistit poˇcet vrchol˚ u (nejvyˇsˇs´ıch bod˚ u) stejné v´ yˇsky. Rozdˇelen´ı naz´ yváme jednovrcholov´ e nebo unimod´ aln´ı, má-li jeden vrchol; dvouvrcholov´ e nebo bimod´ aln´ı, má-li dva vrcholy; a v´ıcevrcholov´ e nebo multimod´ aln´ı, jestliˇze má tˇri nebo v´ıce vrchol˚ u. Zvláˇstn´ım pˇr´ıpadem bimodáln´ıho rozdˇelen´ı je rozdˇ elen´ı U, které má vrcholy na dvou kraj´ıch. Rozdˇelen´ı s v´ yrazn´ ymi vrcholy ale ne nutnˇe stejné v´ yˇsky oznaˇcujeme v praxi ˇcasto také jako bimodáln´ı nebo v´ıcemodáln´ı. Pozn´ amka: Poˇcet vrchol˚ u rozdˇelen´ı ˇcetnost´ı vˇetˇs´ı neˇz jeden má vˇetˇsinou p˚ uvod v nestejnorodosti zkoumaného statistického souboru, z nˇehoˇz b´ yvá v takovém pˇr´ıpadˇe moˇzné a vˇetˇsinou i nutné vytvoˇrit vhodn´ ym roztˇr´ıdˇen´ım tolik statistick´ ych soubor˚ u, kolik mˇelo p˚ uvodn´ı rozdˇelen´ı ˇcetnost´ı vrchol˚ u. Symetrie a ˇ sikmost Vˇsimnˇeme si, ˇze kaˇzdé ze tˇr´ı rozdˇelen´ı na obr. 2.6(a)-(c) má tu vlastnost, ˇze je lze rozdˇelit na dvˇe ˇcásti zrcadlovˇe shodné. Taková rozdˇelen´ı se naz´ yvaj´ı symetrick´ a. Bimodáln´ı rozdˇelen´ı zobrazené na obr. 2.6(h) je také symetrické, ale neplat´ı to obecnˇe pro bimodáln´ı a v´ıcemodáln´ı rozdˇelen´ı. Obr. 2.6(i) ukazuje nesymetrické tˇr´ımodáln´ı rozdˇelen´ı. 21

K APITOLA 2


Pˇri klasifikaci rozdˇelen´ı podle tvaru si mus´ıme b´ yt vˇedomi toho, ˇze rozdˇelen´ı vyskytuj´ıc´ı se v praxi, povaˇzujeme za symetrické i kdyˇz nen´ı pˇresnˇe symetrické. Obr´ azek 2.6 Tvary rozdˇelen´ı

(a) Tvar zvonu

(b) Troj´ uheln´ık

(c) Rovnomˇern´ y

(d) Obrácené J

(e) Tvar J

(f) Vpravo protaˇzené

(g) Vlevo protaˇzené

(h) Bimodáln´ı

(i) V´ıcemodáln´ı

Z´ akladn´ı soubor a v´ ybˇ erov´ a rozdˇ elen´ı Pˇri jednoduchém náhodném v´ ybˇeru ze základn´ıho souboru oˇcekáváme, ˇze rozdˇelen´ı relativn´ıch ˇcetnost´ı v´ ybˇeru bude podobné i kdyˇz ne identické s rozdˇelen´ım základn´ıho souboru. V praxi vˇsak vˇetˇsinou rozdˇelen´ı základn´ıho souboru neznáme. Za tˇechto okolnost´ı m˚ uˇzeme pouˇz´ıt rozdˇelen´ı náhodného v´ ybˇeru ze základn´ıho souboru, abychom si udˇelali hrubou pˇredstavu o rozdˇelen´ı celého souboru dat. Jestliˇze tedy máme k dispozici náhodn´ y v´ ybˇer ze základn´ıho souboru, pak rozdˇelen´ı relativn´ıch ˇcetnost´ı v´ ybˇeru bude aproximovat rozdˇelen´ı ˇ relativn´ıch ˇcetnost´ı základn´ıho souboru. C´ım vˇetˇs´ı bude rozsah v´ ybˇeru, t´ım lepˇs´ı aproximace dosáhneme.

2.3

Popisn´ e m´ıry statistick´ ych soubor˚ u

V odstavc´ıch 2.1 a 2.2 jsme se zaˇcali zab´ yvat popisnou statistikou. Dozvˇedˇeli jsme se, jak uspoˇrádat data do tabulek a sumarizovat u ´daje pomoc´ı graf˚ u. Rozdˇelen´ı ˇcetnost´ı poskytuje uˇziteˇcnou informaci o struktuˇre zkoumaného souboru, ale popisovat a zejména porovnávat nˇekolik soubor˚ u pouze pomoc´ı tabulek nebo graf˚ u by bylo pracné. Z tˇechto d˚ uvod˚ u se snaˇz´ıme shrnout informaci obsaˇzenou ve zjiˇstˇen´ ych u ´daj´ıch o statistickém znaku a vyjádˇrit ji v koncentrované formˇe pomoc´ı urˇcit´ ych charakteristik. Pˇri popisu statistick´ ych soubor˚ u nás zaj´ımaj´ı pˇredevˇs´ım poloha (´ uroveˇ n) rozdˇelen´ı ˇcetnost´ı a variabilita (rozpt´ ylenost). Ménˇe 22

´ ˚ 2.3 P OPISN E´ MÍ RY STATISTICK YCH SOUBOR U

ˇ ısla, která slouˇz´ı k popisu datov´ ˇcasto se zamˇeˇrujeme na ˇsikmost a ˇspiˇcatost. C´ ych soubor˚ u se naz´ yvaj´ı popisn´ e m´ıry. V této ˇca´sti se budeme zab´ yvat nˇekter´ ymi nejd˚ uleˇzitˇejˇs´ımi popisn´ ymi m´ırami.

2.3.1

Kvantily

Kvantil datového souboru je hodnota, která rozdˇeluje soubor hodnot urˇcité veliˇciny na dvˇe ˇca´sti - jedna obsahuje ty hodnoty, které jsou menˇs´ı (nebo stejné) neˇz kvantil, druhá ˇca´st naopak obsahuje ty hodnoty, které jsou vˇetˇs´ı (nebo stejné) neˇz kvantil. Pˇresnˇeji ˇreˇceno, kvantil je hodnota urˇcená tak, ˇze hodnoty, které jsou menˇs´ı a stejné tvoˇr´ı urˇcitou stanovenou ˇca´st rozsahu statistického souboru, napˇr. 1, 15, 50, 90% apod. zat´ımco hodnoty, které jsou vˇetˇs´ı a stejné tvoˇr´ı zb´ yvaj´ıc´ı ˇca´st souboru tj. napˇr. 99, 85, 50, 10% atd. Kvantil veliˇciny x, kter´ y oddˇeluje zhruba 100p% mal´ ych hodnot znaku veliˇciny x (p je relativn´ı ˇcetnost mal´ ych hodnot) od 100(1 − p)% velk´ ych hodnot veliˇciny x, oznaˇcujeme x˜100p a naz´ yváme ho 100p% kvantil veliˇciny x. Mezi dalˇs´ı nejˇcastˇeji pouˇz´ıvané kvantily patˇr´ı percentily, decily a kvartily. Percentily x˜1 , · · · x˜99 datového souboru rozdˇeluj´ı soubor na 100 stejn´ ych ˇca´st´ı, a decily x˜10 , · · · , x˜90 rozdˇeluj´ı soubor na 10 stejn´ ych ˇca´st´ı. Nejˇcastˇeji pouˇz´ıvané percentily jsou kvartily. Jsou celkem tˇri. Definice 2.4

K VARTILY

Kvartily jsou hodnoty, kter´ e dˇel´ı uspoˇra´dan´ y statistick´ y soubor na ˇctyˇri ˇca´sti, pˇriˇcemˇz

kaˇzdá obsahuje 25% jednotek. Doln´ı kvartil x ˜25 oddˇeluje zhruba 25% nejniˇzˇs´ıch hodnot veliˇciny od ostatn´ıch. Prostˇredn´ı kvartil - median x50 ) rozdˇeluje obor hodnot veliˇciny na dvˇe stejné ˇca´sti, z ´ (˜ nichˇz kaˇzdá obsahuje 50% jednotek. Horn´ı kvartil x ˜75 je taková hodnota znaku, která oddˇeluje zhruba 75% nejniˇzˇs´ıch hodnot veliˇciny od zb´ yvaj´ıc´ıch 25%. Necht’ x1 , x2 , ..., xn jsou pozorované hodnoty sledované veliˇciny x, které máme k dispozici a n je celkov´ y poˇcet pozorován´ı. Uspoˇrádejme pozorované hodnoty veliˇciny x do neklesaj´ıc´ı posloupnosti x(1) ≤ x(2) ≤ ... ≤ x(n) . Pak 100p% kvantil urˇc´ıme pro 0 < p < 1 podle následuj´ıc´ıho vzorce: (

x˜100p =

x([np]+1) , 1 (x(np) + x(np+1) ) 2

pokud nen´ı np celé ˇc´ıslo pro np celé.

(2.4)

Pˇ r´ıklad 2.4 Ilustrace definice 2.4 ´ ´ u ˚ bylo poˇzad ´ ano, ´ ´ ´ 20 vybranych televizn´ıch divak aby si tyden zaznamenavali dobu vˇenovanou ´ ı televizn´ıch poˇradu. ˚ Nasleduj´ ´ ´ sledovan´ ı data uspoˇradan a´ podle velikosti. 5 15 16 20 21 25 26 27 30 30 31 32 32 34 35 38 38 41 43 66 Urˇcete kvartily datového souboru. ˇ sen´ı: Poˇcet dat je sudy, ´ takˇze prostˇredn´ı kvartil je roven x Reˇ ˜50 = (30 + 31)/2 = 30.5. Doln´ı kvartil je roven prostˇredn´ımu kvartilu 50% nejniˇzsˇ´ıch dat, to je x ˜25 = (21 + 25)/2 = 23. Horn´ı kvartil je roven prostˇredn´ımu kvartilu 50% nejvˇetˇs´ıch dat, to je x ˜75 = (35 + 38)/2 = 36.5.

23

K APITOLA 2

2.3.2


M´ıry polohy

Popisné m´ıry, které ukazuj´ı, kde leˇz´ı stˇred nebo nejtypiˇctˇejˇs´ı hodnota datového souboru se naz´ yvaj´ı m´ıry polohy nebo m´ıry u ´ rovnˇ e. Nejd˚ uleˇzitˇejˇs´ı tˇri m´ıry polohy jsou: aritmetický pr˚ umˇer, medi´ an a modus. Term´ınem pr˚ umˇer budeme v dalˇs´ım textu oznaˇcovat aritmetick´ y pr˚ umˇer. Pr˚ umˇer a medián m˚ uˇzeme pouˇz´ıt pro kvantitativn´ı data, zat´ımco modus m˚ uˇze b´ yt pouˇzit jak pro kvantitativn´ı tak i kvalitativn´ı data. Pr˚ umˇ er Nejˇcastˇeji pouˇz´ıvanou m´ırou polohy je pr˚ umˇer. Definice 2.5

˚ ER ˇ DATOV E´ HO SOUBORU P R UM

Pr˚ umˇ er datového souboru x¯ je definován jako pod´ıl souˇctu hodnot datového souboru a poˇctu jednotliv´ ych hodnot datového souboru. Pr˚ umˇer x¯ lze vypoˇc´ıtat podle vzorce x¯ =

n 1X xi . n i=1

(2.5)

Oznaˇcme yi , i = 1, ..., k, 1 ≤ k ≤ n r˚ uzné hodnoty sledované veliˇciny x a ni odpov´ıdaj´ıc´ı ˇcetnosti, n necht’ znaˇc´ı rozsah v´ ybˇerového souboru. Pak pro v´ ypoˇcet pr˚ umˇeru pouˇzijeme vzorec Pk k k X yi ni 1X = y n = yi pi . (2.6) x¯ = Pi=1 i i n n i=1 i=1 ni i=1 Relativn´ı ˇcetnosti pi udávaj´ı váhu, která je pˇrisuzována jednotliv´ ym r˚ uzn´ ym hodnotám sledované veliˇciny. Pr˚ umˇer poˇc´ıtan´ y podle vzorce (2.6) naz´ yváme v´ aˇ zen´ y aritmetick´ y pr˚ umˇ er. Aritmetick´ y pr˚ umˇer má ˇradu vlastnost´ı, z nichˇz nˇekteré maj´ı teoretick´ y v´ yznam, jiné se daj´ı s v´ yhodou pouˇz´ıt pˇri jeho v´ ypoˇctu. Uvedeme si je: Vlastnosti pr˚ umˇeru: P

1. Souˇcet jednotliv´ ych odchylek od pr˚ umˇeru je nulov´ y; tj. obecnˇe plat´ı ni=1 (xi − x¯) = 0. 2. Pˇriˇcteme-li ke kaˇzdé hodnotˇe sledované veliˇciny tutéˇz konstantu c, zv´ yˇs´ı se o tuto P konstantu i aritmetick´ y pr˚ umˇer: n1 ni=1 (xi + c) = x¯ + c. 3. Násob´ıme-li vˇsechny hodnoty sledované veliˇciny stejnou konstantou c, je touto konP x. stantou násoben i pr˚ umˇer: n1 ni=1 cxi = c¯ Pˇ r´ıklad 2.5 Ilustrace definice 2.5 ´ a´ nˇekolik starˇs´ıch konzultantu, ˚ jejichˇz ty´ denn´ı plat je mezi 7000 Poradenska´ firma zamˇestnav ˚ s tydenn´ ´ ´ a 9500 Kˇc a nˇekolik mlady´ ch konzultantu ım platem od 3000 do 3500 Kˇc. Nasleduj´ ıc´ı ´ ´ ˚ (ve stovkach ´ dvˇe tabulky udavaj´ ı pˇrehled tydenn´ ıch výdˇelku Kˇc) v cˇ ervenci resp. v srpnu téhoˇz ˚ er pro kaˇzdý datovy´ soubor. Jaky´ byl prumˇ ˚ erny´ tydenn´ ´ roku. Vypoˇctˇete prumˇ ı výdˇelek v cˇ ervenci a v srpnu? ´ Datový soubor I (ve stovkach Kˇc)

20 20 20 84 20 20 30 20 30 35 70 35 95

´ Datový soubor II (ve stovkach Kˇc) 20 20 84 35 30 30 20 20 95 20

24

´ ˚ 2.3 P OPISN E´ MÍ RY STATISTICK YCH SOUBOR U ˇ sen´ı: Vzhledem k definici 2.5 dostav ´ ame: ´ Reˇ ˚ er datového souboru I = Prumˇ

499 . = 38.40 13

˚ er datového souboru II = a prumˇ

374 = 37.40. 10

˚ erny´ týdenn´ı vydˇ ´ elek tˇrinacti ´ ˚ poradenské firmy v datovém souboru I Takˇze prumˇ zamˇestnancu ˚ v datovém souboru II byl 3740 Kˇc. byl 3.840 Kˇc a deseti zamˇestnancu

Medi´ an Jinou ˇcasto pouˇz´ıvanou m´ırou polohy je medián. Jak jsme se dovˇedˇeli v odstavci 2.3.1, medi´ an datového souboru je hodnota, která rozdˇeluje soubor hodnot urˇcité veliˇciny na dvˇe ˇca´sti-jedna obsahuje 50% tˇech hodnot, které jsou menˇs´ı (nebo stejné) neˇz medián, druhá ˇca´st naopak obsahuje 50% hodnot, které jsou vˇetˇs´ı (nebo stejné) neˇz medián. Definice 2.6

´ DATOV EHO ´ M EDI AN

SOUBORU

Uspoˇra´dejme pozorované hodnoty sledované veliˇciny do neklesaj´ıc´ı posloupnosti. Jestliˇze rozsah datového souboru n je lichy´ , pak median a leˇz´ı právˇe ´ je hodnota, kter´ uprostˇred uspoˇra´dané posloupnosti hodnot. Jestliˇze rozsah datového souboru n je sudy´ , pak median umˇer dvou hodnot, které ´ je pr˚ leˇz´ı uprostˇred uspoˇra´dané posloupnosti hodnot. Ze vzorce 2.4 pro v´ ypoˇcet 100p% kvantilu plyne, ˇze medián lze spoˇc´ıtat podle následuj´ıc´ıho vzorce: ( pokud je n liché ˇc´ıslo x([ n ]+1) , (2.7) x˜50 = 1 2 n n + x ) pro n sudé. (x ( 2 +1) (2) 2 Pˇ r´ıklad 2.6 Ilustrace definice 2.6 ´ pro oba soubory. Uvaˇzujme opˇet datové soubory I a II z pˇr´ıkladu 2.5. Urˇcete median ˇ ´ ame ´ Reˇsen´ı: Pouˇzijeme definici 2.6. Nejprve data uspoˇrad do neklesaj´ıc´ı posloupnosti: 20 20 20 20 20 20 30 30 35 35 70 84 95 ´ je tud´ızˇ roven sedmé hodnotˇe Poˇcet dat v datovém souboru I je 13, to je liché cˇ ´ıslo. Median ´ ´ ty´ denn´ıch platu ˚ 13 zamˇestnancu ˚ je 3000 v uspoˇradan´ e posloupnosti, to je hodnota 30. Median ´ ame: ´ Kˇc. Podobnˇe postupujeme i v pˇr´ıpadˇe datového souboru II. Data uspoˇrad 20 20 20 20 20 30 30 35 84 95 ´ ty´ denn´ıch platu ˚ 10 Poˇcet dat v datovém souboru II je 10, to je sudé cˇ´ıslo. Tud´ızˇ median ˚ z datového souboru II je (2000 + 3000)/2 = 2500 Kˇc. zamˇestnancu

Modus Posledn´ı m´ıra polohy, kterou se budeme zab´ yvat, je modus. Definice 2.7

M ODUS DATOV E´ HO

SOUBORU

Modus datov´ eho souboru xˆ je kaˇzdá hodnota, jej´ıˇz ˇcetnost v´ yskytu je vˇetˇs´ı neˇz 1 a je

stejná nebo vˇetˇs´ı neˇz ˇcetnost v´ yskytu kterékoliv jiné hodnoty. Jestliˇze ˇcetnost ˇzádné hodnoty v datovém souboru nen´ı vˇetˇs´ı neˇz 1, pak ˇr´ıkáme, ˇze datov´ y soubor nemá modus. Jinak, kaˇzdá hodnota, která má nejvˇetˇs´ı ˇcetnost se naz´ yvá modus datového souboru. Datov´ y soubor m˚ uˇze m´ıt tud´ıˇz v´ıc neˇz jeden modus. 25

K APITOLA 2


K tomu, abychom urˇcili modus datového souboru, konstruujeme nejprve tabulku rozdˇelen´ı ˇcetnost´ı dat pro jednoduché tˇr´ıdˇen´ı. Modus lze pak jednoduˇse urˇcit jak ukazuje následuj´ıc´ı pˇr´ıklad. Pˇ r´ıklad 2.7 Ilustrace definice 2.7 Urˇcete modus kaˇzdého datového souboru z pˇr´ıkladu 2.5. ˇ sen´ı: Nejprve uvaˇzujme soubor I. Pˇri jednoduchém tˇr´ıdˇen´ı je rozdˇelen´ı cˇ etnost´ı pro data ze Reˇ ´ souboru I dano n´ızˇe: Plat ˇ Cetnost

2000 3000 3500 7000 8400 9500 6 2 1 1 1 1

Z tabulky je vidˇet, zˇ e nejˇcastˇeji se vyskytuj´ıc´ı hodnota v datovém souboru je 2000. Tud´ızˇ modus ˚ v datovém souboru I je 2000 Kˇc. Stejny´ m postupem bychom zjistili, zˇe modus 10 platu˚ 13 platu v datovéme souboru II je 2000 Kˇc.

Porovn´ an´ı pr˚ umˇ eru, medi´ anu a modu datov´ eho souboru Pr˚ umˇer, medián a modus datového souboru maj´ı obvykle r˚ uzné hodnoty. V obou datov´ ych souborech I a II, je pr˚ umˇer vˇetˇs´ı neˇz medián. Je to proto, ˇze pr˚ umˇer je silnˇe ovlivnˇen nˇekolika velk´ ymi hodnotami v kaˇzdém souboru. Obecnˇe plat´ı, ˇze pr˚ umˇer je citliv´ y v˚ uˇci extrém˚ um (to je v˚ uˇci mal´ ym nebo velk´ ym hodnotám), zat´ımco medián ne. Tud´ıˇz mediánu dáváme jako m´ıˇre polohy pˇrednost pˇred pr˚ umˇerem v pˇr´ıpadˇe, ˇze v datovém souboru jsou extrémn´ı hodnoty. Obrázek 2.7 ukazuje vzájemnou polohu pr˚ umˇeru, mediánu a modu pro vpravo seˇsikmené, symetrické a vlevo seˇsikmené rozdˇelen´ı. Jak je vidˇet, pr˚ umˇer leˇz´ı ve smˇeru extrémn´ıch hodnot. Je-li rozdˇelen´ı vpravo seˇsikmené, pr˚ umˇer je vˇetˇs´ı neˇz medián; v pˇr´ıpadˇe symetrického rozdˇelen´ı jsou si pr˚ umˇer a medián rovny; je-li rozdˇelen´ı vlevo seˇsikmené, pr˚ umˇer je menˇs´ı neˇz medián. Pro symetrické rozdˇelen´ı ˇcetnost´ı plat´ı: xˆ = x¯ = x˜50 . Pro nesymetrické rozdˇelen´ı ˇcetnost´ı plat´ı: vzhledem k modu leˇ z´ı medi´ an ve smˇ eru delˇ s´ı ˇ c´ asti rozdˇ elen´ı a pr˚ umˇ er d´ ale v tomto smˇ eru. Obr´ azek 2.7 Vz´ ajemn´ a poloha pr˚ umˇeru a medi´ anu

medián

pr˚ umˇer

(a) vpravo seˇsikmené

pr˚ umˇer

medián

(b) symetrické

pr˚ umˇer

medián

(c) vlevo seˇsikmené

Odlehl´ a pozorov´ an´ı Data, která leˇz´ı daleko“ od vˇetˇsiny dat datového souboru. Mohou to b´ yt chyby mˇeˇren´ı nebo ” záznamu dat, nebo prostˇe neobvyklé extrémn´ı hodnoty. Popisná m´ıra se naz´ yvá rezistentn´ı, jestliˇze nen´ı citlivá na vliv malého poˇctu extrémn´ıch pozorovan´ ych hodnot. Tud´ıˇz medián je rezistentn´ı, zat´ımco pr˚ umˇer nikoliv. Rezistence pr˚ umˇeru m˚ uˇze b´ yt zlepˇsena pouˇzit´ım useknut´ ych pr˚ umˇ er˚ u, kdy urˇcité procento nejmenˇs´ıch a nejvˇetˇs´ıch pozorovan´ ych hodnot je odstranˇeno z datového souboru pˇredt´ım, neˇz poˇc´ıtáme pr˚ umˇer.

26


Modus obou datov´ ych soubor˚ u I a II je jin´ y neˇz pr˚ umˇer i medián. Zat´ımco pr˚ umˇer a medián se snaˇz´ı naj´ıt stˇred datového souboru, modus nikoliv. Modus lze nejsnadnˇeji urˇcit, avˇsak nejˇcetnˇejˇs´ı hodnota m˚ uˇze leˇzet daleko od vˇetˇsiny dat souboru. Pr˚ umˇer je jediná m´ıra polohy, která zahrnuje vˇsechny pozorované hodnoty sledované veliˇciny. Je zˇrejmé, ˇze pr˚ umˇer, medián a modus obecnˇe poskytuj´ı r˚ uzné informace o datovém souboru. Neexistuje jednoduché pravidlo pro rozhodnut´ı, která z mˇer polohy by mˇela b´ yt pouˇzita v dané situaci. Pro nˇekteré u ´ˇcely je vhodná jedna, pro druhé jiná. Dokonce i experti se mohou liˇsit v názoru na nejvhodnˇejˇs´ı m´ıru polohy pro urˇcit´ y soubor dat.

2.3.3

M´ıry rozpt´ ylenosti

ˇ Casto se setkáváme se situac´ı, ˇze rozdˇelen´ı ˇcetnost´ı maj´ı shodnou polohu, ale pˇresto se od sebe v´ yraznˇe liˇs´ı. I kdyˇz pr˚ umˇer m˚ uˇze b´ yt nejd˚ uleˇzitˇejˇs´ı charakteristikou polohy, je d˚ uleˇzité také vˇedˇet, jak rozdˇelen´ı kolem pr˚ umˇeru kol´ısá. Obecnˇe je moˇzno ˇr´ıci, ˇze vypov´ıdac´ı schopnost pr˚ umˇeru je t´ım vˇetˇs´ı, ˇc´ım je rozptýlenost nebo variabilita sledované veliˇciny menˇs´ı. Tak jako existuje nˇekolik mˇer polohy, byla zkonstruována i celá ˇrada mˇer variability. Zm´ın´ıme se pouze o tˇech nejd˚ uleˇzitˇejˇs´ıch, které se v praxi pouˇz´ıvaj´ı. M´ıry, které charakterizuj´ı mˇenlivost statistického souboru v absolutn´ı velikosti, naz´ yváme m´ırami absolutn´ı rozpt´ ylenosti. M´ıry tohoto typu mˇeˇr´ı rozpt´ ylenost ve stejn´ ych mˇern´ ych jednotkách, ve kter´ ych je vyjadˇrována mˇeˇrená veliˇcina. V pˇr´ıpadˇe, ˇze srovnáváme rozpt´ ylenost soubor˚ u liˇs´ıc´ıch se polohou, pouˇz´ıváme m´ıry relativn´ı rozpt´ ylenosti, které mˇeˇr´ı variabilitu v pomˇeru k poloze sledované veliˇciny v souboru. Tyto m´ıry jsou bezrozmˇerná ˇc´ısla, coˇz dovoluje porovnávat rozpt´ ylenost statistick´ ych znak˚ u liˇs´ıc´ıch se mˇernou jednotkou. M´ıry absolutn´ı rozpt´ ylenosti a) Variaˇcn´ı rozpˇet´ı Nejjednoduˇsˇs´ı m´ırou rozpt´ ylenosti je variaˇ cn´ı rozpˇ et´ı nebo jen rozpˇ et´ı, které znaˇc´ıme R. Definice 2.8

´ ROZP Eˇ T Í DATOV EHO

SOUBORU

Rozpˇet´ı datov´ eho souboru je definováno jako rozd´ıl mezi nejvˇetˇs´ı a nejmenˇs´ı hodnotou

v datovém souboru R = xmax − xmin . Rozpˇet´ı datového souboru se velmi snadno a rychle spoˇc´ıtá a má jednoduchou interpretaci. Avˇsak, pouˇzit´ı rozpˇet´ı vede k tomu, ˇze znaˇcné mnoˇzstv´ı informace je ignorováno - jsou vyuˇzity pouze nejvˇetˇs´ı a nejmenˇs´ı hodnoty souboru a zbytek dat nen´ı vzat v u ´vahu. Kromˇe toho, krajn´ı hodnoty posloupnosti pozorován´ı, na nichˇz je rozpˇet´ı zaloˇzeno, mohou b´ yt nahodilé. Pˇr´ıpadné extrémn´ı vlivy se projev´ı pˇredevˇs´ım na tˇechto hodnotách. V´ yznamné pouˇzit´ı nacház´ı rozpˇet´ı ve statistické kontrole jakosti, kde poskytuje dostateˇcnou informaci o variabilitˇe zkoumaného znaku. Ve vˇetˇsinˇe pˇr´ıpad˚ u vˇsak dává statistická teorie i praxe pˇrednost dvˇema jin´ ym m´ırám rozpt´ ylenosti a sice smˇerodatné odchylce a mezikvartilovému rozpˇet´ı. b) Vy´ bˇerovy´ rozptyl Na rozd´ıl od variaˇcn´ıho rozpˇet´ı, rozptyl bere v u ´vahu vˇsechny hodnoty datového souboru. Dává se j´ı pˇrednost v pˇr´ıpadech, kdy jako m´ıra polohy je pouˇzit pr˚ umˇer. Zhruba ˇreˇceno, rozptyl mˇeˇr´ı variabilitu hodnot datového souboru tak, ˇze zjiˇstuje, jak daleko jsou v pr˚ umˇeru jednotky datového souboru od aritmetického pr˚ umˇeru. 27


K APITOLA 2

Prvn´ı krok k urˇcen´ı v´ ybˇerového rozptylu je stanovit, jak je kaˇzdá jednotka xi souboru vzdálena od pr˚ umˇeru x¯, to je zjistit jej´ı odchylku od pr˚ umˇ eru xi − x¯. Druh´ y krok pˇri v´ ypoˇctu je urˇcit m´ıru celkové odchylky od pr˚ umˇeru pro vˇsechna data souboru. Pr˚ umˇerná odchylka vˇsak nemá ˇzádn´ y v´ yznam pro urˇcen´ı rozpt´ ylenosti, protoˇze je P vˇzdy rovna nule (viz vlastnost 1 pr˚ umˇeru). Souˇcet ˇctverc˚ u odchylek od pr˚ umˇeru, (xi − x¯)2 se naz´ yvá souˇ cet ˇ ctverc˚ u odchylek a je to m´ıra celkové odchylky od pr˚ umˇeru pro vˇsechna data. Tˇret´ı krok pˇri urˇcen´ı v´ ybˇerového rozptylu je urˇcit pr˚ umˇernou hodnotu ˇctverc˚ u odchylek, to znamená vydˇelit souˇcet ˇctverc˚ u odchylek faktorem n − 1, nikoliv rozsahem v´ ybˇeru n. D˚ uvod, proˇc se m´ısto dˇelitele n pouˇz´ıvá n − 1 bude vysvˇetlen pozdˇeji. T´ım z´ıskáme charakteristiku variability, kterou naz´ yváme v´ ybˇ erov´ y rozptyl a znaˇc´ıme s2 . ´ EROV ˇ ´ ROZPTYL V YB Y

Definice 2.9

Vybˇ ybˇeru o rozsahu n je definován vztahem ´ erovy´ rozptyl s2 v´

s2 =

n 1 X (xi − x¯)2 . n − 1 i=1

ˇ ım vˇ C´ etˇ s´ı je variabilita datov´ eho souboru, t´ım vˇ etˇ s´ı je rozptyl. Rozptyl nen´ı rezistentn´ı, jeho hodnota m˚ uˇze b´ yt silnˇe ovlivnˇena nˇekolika extrémn´ımi hodnotami. Pro praktické v´ ypoˇcty nen´ı vzorec ve v´ yˇse uvedené definici 2.9 pˇr´ıliˇs vhodn´ y. Jednoduchou u ´pravou se dá pˇrevést na vhodnˇejˇs´ı tvar. n X

(xi − x¯)2 =

i=1

=

n X i=1 n X

x2i − 2¯ x

n X

xi + n(¯ x) 2 =

i=1

x2i

2

− n(¯ x) =

i=1

n X

n X

x2i − 2¯ x

i=1 n X

xi + x¯

i=1

n X i=1

xi =

n X i=1

x2i − x¯

n X

xi

i=1

xi )2 /n = nx2 − x¯2 .

x2i − (

i=1

n X

i=1

Pak m˚ uˇzeme pouˇz´ıvat tzv. výpoˇcetn´ı vzorec pro rozptyl. Vzorec 2.1

Výpoˇcetn´ı vzorec pro výbˇerový rozptyl

Vybˇ ybˇeru o rozsahu n lze poˇc´ıtat podle vzorce: ´ erovy´ rozptyl s2 v´ 2

s =

Pn

i=1

P

x2i − ( ni=1 xi )2 /n . n−1

Vlastnosti výbˇerového rozptylu: 1. Pˇriˇcteme-li ke kaˇzdé hodnotˇe sledované veliˇciny x konstantu c, rozptyl s2y veliˇciny y = uvodn´ı veliˇciny. x + c bude stejn´ y jako rozptyl s2x p˚ s2y

n n n 1 X 1 X 1 X 2 2 = (yi − y¯) = (xi + c − (¯ x + c)) = (xi − x¯)2 = s2x . n − 1 i=1 n − 1 i=1 n − 1 i=1

2. Vynásob´ıme-li vˇsechny hodnoty sledované veliˇciny x konstantou c, pak rozptyl s2z veliˇciny z = cx vypoˇcteme vynásoben´ım rozptylu s2x veliˇciny x ˇctvercem konstanty c. s2z =

n n n 1 X 1 X 1 X (zi − z¯)2 = (cxi − c¯ x)2 = c2 (xi − x¯)2 = c2 s2x . n − 1 i=1 n − 1 i=1 n − 1 i=1

28


Je d˚ uleˇzité si uvˇedomit, ˇze v´ ybˇerov´ y rozptyl je vyjádˇren v mˇern´ ych jednotkách, které jsou ˇctvercem p˚ uvodn´ıch jednotek. Proto se pouˇz´ıvá tzv. v´ ybˇ erov´ a smˇ erodatn´ a odchylka s v u u s=t

n 1 X (xi − x¯)2 . n − 1 i=1

(2.8)

c) Mezikvartilové rozpˇet´ı Mezi dalˇs´ı m´ıry absolutn´ı variability, které se nˇekdy v praxi pouˇz´ıvaj´ı patˇr´ı mezikvartilové rozpˇet´ı. Této m´ıˇre dáváme pˇrednost v pˇr´ıpadech, kdy jako m´ıra polohy je pouˇzit medián. Stejnˇe jako medián je mezikvartilové rozpˇet´ı rezistentn´ı charakteristika. Definice 2.10

M EZIKVARTILOV E´ ROZP Eˇ T Í

Mezikvartilove´ rozpˇet´ı IQR, je definov´ ano jako rozd´ıl mezi horn´ım a doln´ım kvartilem

IQR = x˜75 − x˜25 . Zhruba ˇreˇceno IQR udává rozpˇet´ı stˇredn´ıch 50% dat. Nev´ yhodou této m´ıry je, ˇze nezachycuje variabilitu vˇsech hodnot zkoumané veliˇciny. Z tohoto hlediska jsou v´ ybˇerová smˇerodatná odchylka a rozptyl nejd˚ uleˇzitˇejˇs´ı charakteristiky variability. M´ıry relativn´ı rozpt´ ylenosti Charakteristiky variability uvedené v pˇredcházej´ıc´ım textu jsou vyjádˇreny ve stejn´ ych mˇern´ ych jednotkách jako hodnoty analyzované veliˇciny nebo jejich pr˚ umˇer. Mˇeˇr´ı tedy variabilitu absolutnˇe. Pomoc´ı tˇechto mˇer nelze srovnávat variabilitu statistického znaku u dvou nebo v´ıce soubor˚ u, které se v´ yraznˇe liˇs´ı polohou ani variabilitu nˇekolika statistick´ ych veliˇcin vyjádˇren´ ych v r˚ uzn´ ych mˇern´ ych jednotkách. V takov´ ych pˇr´ıpadech pouˇz´ıváme relativn´ı charakteristiky variability, které vliv polohy nebo vliv mˇeˇr´ıc´ı jednotky vyluˇcuj´ı t´ım, ˇze charakteristiky absolutn´ı variability dávaj´ı do pomˇeru k pr˚ umˇeru nebo k mediánu. Nejznámnˇejˇs´ı m´ırou relativn´ı variability je variaˇcn´ı koeficient. Definice 2.11

ˇ Í KOEFICIENT VARIA CN

Variaˇcn´ı koeficient je definov´ an jako pomˇer v´ ybˇerové smˇerodatné odchylky a pr˚ umˇeru

Vx =

s . x¯

Vx je bezrozmˇerné ˇc´ıslo. Jeho stonásobek (100Vx ) udává rozpt´ ylenost v procentech. Podle velmi hrubého pravidla, variaˇcn´ı koeficient vyˇsˇs´ı neˇz 0.5 je pˇr´ıznakem znaˇcné nesourodosti statistického souboru. Variaˇcn´ı koeficient pro datov´ y soubor II z pˇr´ıkladu 2.5 je 0.7519. Tato hodnota je znakem znaˇcné nesourodosti souboru II. Pˇ eti–ˇ c´ıseln´ a charakteristika Pomoc´ı tˇr´ı kvartil˚ u z´ıskáme m´ıru polohy datového souboru (medián, x˜50 ) a m´ıru variability pro dvˇe prostˇredn´ı ˇctvrtiny uspoˇrádaného datového souboru (˜ x75 − x˜25 ). Tyto kvartily nám vˇsak neposkytnou ˇzádnou informaci o prvn´ı a ˇctvrté ˇctvrtinˇe datového souboru. Abychom z´ıskali tuto informaci, je tˇreba uvaˇzovat také maximáln´ı a minimáln´ı hodnotu. Pak variabilita prvn´ı ˇctvrtiny souboru m˚ uˇze b´ yt mˇeˇrena pomoc´ı rozd´ılu mezi doln´ım kvartilem a minimáln´ı 29

K APITOLA 2


hodnotou a variabilita ˇctvrté ˇctvrtiny souboru pomoc´ı rozd´ılu maximáln´ı hodnoty a horn´ıho kvartilu. Tud´ıˇz minimáln´ı hodnota, maximáln´ı hodnota a tˇri kvartily poskytuj´ı, kromˇe jiného, informaci o poloze a variabilitˇe souboru. Dostáváme se tak k definici pojmu pˇeti–ˇc´ıseln´ a charakteristika. Definice 2.12

P Eˇ TI – Cˇ Í SELN A´ CHARAKTERISTIKA

Pˇeti–ˇc´ıselnou charakteristiku datov´ eho souboru tvoˇr´ı minimáln´ı hodnota, maximáln´ı hod-

nota a vˇsechny kvartily zapsané v poˇrad´ı: xmin , x˜25 , x˜50 , x˜75 , xmax . Napˇr. pˇeti–ˇc´ıselná charakteristika pro datov´ y soubor v pˇr´ıkladu 2.4 udávaj´ıc´ı dobu, kterou 20 vybran´ ych divák˚ u vˇenuje sledován´ı televize je 5, 23, 30.5, 36.5, a 66.

Obr´ azek 2.8 Krabicový diagram

xmin

x ˜25

˜75 x ˜50 x

xmax

Krabicov´ y graf Krabicov´ y graf také naz´ yvan´ y box and whiskers plot neboli krabice s vousy, je zaloˇzen na pˇeti–ˇc´ıselné charakteristice a m˚ uˇze b´ yt pouˇzit ke grafickému zobrazen´ı polohy a variability dat. Krabicov´ y graf je zobrazen na obrázku 2.8.

2.3.4

M´ıry ˇ sikmosti a ˇ spiˇ catosti

M´ıry ˇsikmosti jsou zaloˇzeny na porovnán´ı stupnˇe nahuˇstˇenosti mal´ ych hodnot sledovaného statistického znaku se stupnˇem nahuˇstˇenosti velk´ ych hodnot tohoto znaku. M´ıry ˇspiˇcatosti jsou zaloˇzeny na porovnán´ı stupnˇe nahuˇstˇenosti hodnot prostˇredn´ı velikosti se stupnˇem nahuˇstˇenosti ostatn´ıch hodnot, respektive vˇsech hodnot sledovaného statistického znaku. Definice 2.13

ˇ M Í RA Sˇ IKMOSTI , M Í RA Sˇ PI CATOSTI

Necht’ xi , i = 1, 2 · · · , n jsou namˇeˇrené hodnoty sledovaného statistického znaku x, x¯ je jejich aritmetick´ y pr˚ umˇer a s je smˇerodatná odchylka. M´ıra sˇ ikmosti α (struˇ cnˇe ˇsikmost) a m´ıra sˇ piˇcatosti β (struˇcnˇe ˇspiˇcatost) jsou definovány následuj´ıc´ımi vztahy Pn

α=

i=1 (xi

− x¯)3

ns3

Pn

a

β=

i=1 (xi − ns4

x¯)4

− 3.

Stejn´ y stupeˇ n hustoty mal´ ych a velk´ ych hodnot se zpravidla projevuje v symetrii tvaru rozdˇelen´ı ˇcetnost´ı. Vˇetˇs´ı stupeˇ n nahuˇstˇenosti mal´ ych hodnot v porovnán´ı s hustotou velk´ ych hodnot se projev´ı vpravo seˇsikmeným tvarem rozdˇelen´ı ˇcetnost´ı, které oznaˇcujeme také kladnˇe seˇsikmeným tvarem rozdˇelen´ı (α je kladné ˇc´ıslo). Vˇetˇs´ı stupeˇ n nahuˇstˇenosti velk´ ych hodnot ve srovnán´ı s hustotou mal´ ych hodnot se projev´ı zpravidla vlevo seˇsikmeným tvarem rozdˇelen´ı ˇcetnost´ı, které také naz´ yváme z´ apornˇe seˇsikmený tvarem rozdˇelen´ı (α je záporné ˇc´ıslo). Jsou-li ˇcetnosti prostˇredn´ıch hodnot srovnatelné s ˇcetnostmi ostatn´ıch hodnot znaku, ˇspiˇcatost se zpravidla projevuje ploch´ ym tvarem rozdˇelen´ı ˇcetnost´ı. Vˇetˇs´ı stupeˇ n koncentrace prostˇredn´ıch hodnot ve srovnán´ı s ˇcetnostmi vˇsech hodnot znaku se projev´ı ˇspiˇcat´ ym tvarem rozdˇelen´ı ˇcetnost´ı. Z vyˇsˇs´ı ˇc´ıselné hodnoty m´ıry β se zpravidla usuzuje na ˇspiˇcatˇejˇs´ı rozdˇelen´ı ˇcetnost´ı a t´ım zároveˇ n na vyˇsˇs´ı stupeˇ n koncentrace prostˇredn´ıch hodnot ve srovnán´ı ˇ s ostatn´ımi hodnotami sledovaného znaku. Casto se pouˇz´ıvaj´ı r˚ uzné modifikace m´ıry ˇsikmosti α a m´ıry ˇspiˇcatosti β, které zde nebudeme uvádˇet (viz napˇr. [7]). 30

Kapitola 3 Poˇ cet pravdˇ epodobnosti Aˇz dosud jsme se soustˇredili na popisnou statistiku, to je na metody pro organizován´ı a sumarizaci dat. Avˇsak hlavn´ım c´ılem je seznámit se se základy inferenˇcn´ı statistiky, s metodami formulován´ı závˇer˚ u o základn´ım souboru na základˇe informac´ı z´ıskan´ ych z v´ ybˇeru ze základn´ıho souboru. Vzhledem k tomu, ˇze statistická indukce zahrnuje formulován´ı závˇer˚ u o celém základn´ım souboru na základˇe informac´ı z´ıskan´ ych pouze z ˇca´sti tohoto souboru, nem˚ uˇzeme si b´ yt nikdy jisti, ˇze naˇse závˇery jsou správné – neurˇcitost je vlastn´ı inferenˇcn´ı statistice. Dˇr´ıve neˇz zaˇcneme odvozovat a aplikovat metody inferenˇcn´ı statistiky, mus´ıme se seznámit s pojmem neurˇcitost. Vˇeda o neurˇcitosti se naz´ yvá teorie pravdˇ epodobnosti. Teorie pravdˇepodobnosti nám umoˇzn´ı ohodnotit, zda naˇse statistické závˇery jsou správné.

3.1

Pojem pravdˇ epodobnosti

Kaˇzdá lidská ˇcinnost spoˇc´ıvaj´ıc´ı v realizaci urˇcit´ ych pˇredem stanoven´ ych podm´ınek a sledován´ı pˇr´ısluˇsn´ ych d˚ usledk˚ u se naz´ yvá pokus. V´ ysledek pokusu naz´ yváme jev. V pˇr´ırodˇe se setkáváme s pokusy, které se ˇr´ıd´ı deterministickým schématem: Vstoup´ı-li v platnost urˇcit´ y komplex okolnost´ı, pak nutnˇe nastane urˇcit´ y jev. Kromˇe toho se vˇsak vyskytuj´ı v pˇr´ırodˇe a bˇeˇzném ˇzivotˇe ˇcetné jevy, které nelze popsat podobn´ ym schématem a které lze charakterizovat takto: V d˚ usledku komplexu okolnost´ı m˚ uˇze urˇcit´ y jev nastat, ale m˚ uˇze téˇz nenastat. Takové jevy se naz´ yvaj´ı n´ ahodn´ ymi jevy a schémata tohoto druhu se naz´ yvaj´ı stochastickými schématy. Pokusy tohoto typu naz´ yváme n´ ahodn´ e pokusy. Napˇr´ıklad pˇri sebelepˇs´ım dodrˇzen´ı v´ yrobn´ıch podm´ınek jsou nˇekteré v´ yrobky vadné. Nebo pˇri jednom hodu minc´ı v´ ysledek, ˇze padne l´ıc, m˚ uˇze nastat, ale také m˚ uˇze nenastat. Pravdˇepodobnost jevu je m´ıra vˇerohodnosti, ˇze jev nastane. Pravdˇepodobnost bl´ızká nule znamená, ˇze je velice nevˇerohodné, aby jev nastal, zat´ımco pravdˇepodobnost bl´ızká jedné znamená, ˇze je velice vˇerohodné, ˇze jev nastane. Abychom z´ıskali dalˇs´ı pohled na v´ yznam pojmu pravdˇepodobnost pouˇzijeme k tomu interpretaci pojmu pravdˇ epodobnost pomoc´ı relativn´ıch ˇ cetnost´ı. Pˇri této interpretaci chápeme pravdˇepodobnost jevu jako relativn´ı ˇcetnost jeho v´ yskytu pˇri velkém poˇctu opakován´ı téhoˇz pokusu. Pro ilustraci uvaˇzujme pokus spoˇc´ıvaj´ıc´ı v jednom hodu zcela pravidelnou minc´ı. Protoˇze mince je pravidelná (zhotovená z homogenn´ıho materiálu) usuzujeme, ˇze je ˇsance 1 ku 1, ˇze padne l´ıc. Tud´ıˇz pˇrisoud´ıme jevu, ˇze padne l´ıc, pravdˇepodobnost rovnou 0.5. Interpretace pomoc´ı relativn´ıch ˇcetnost´ı znamená, ˇze pˇri velkém poˇctu hod˚ u jednou minc´ı padne l´ıc 31

P O Cˇ ET PRAVD Eˇ PODOBNOSTI

K APITOLA 3

pˇribliˇznˇe v polovinˇe pˇr´ıpad˚ u. Existuj´ı tedy náhodné jevy, jejichˇz relativn´ı ˇcetnost vykazuje urˇcitou stabilitu, tj. relativn´ı ˇcetnost kol´ısá kolem urˇcité hodnoty a jej´ı v´ ychylky se vˇetˇsinou zmenˇsuj´ı t´ım v´ıce, ˇc´ım v´ıce pokus˚ u je vykonáno. Necht’ na je ˇcetnost urˇcitého jevu v serii n nezávisl´ ych opakován´ı pokusu, pak na pravdˇepodobnost jevu ≈ . n Pˇrestoˇze interpretace pojmu pravdˇepodobnost pomoc´ı relativn´ıch ˇcetnost´ı je uˇziteˇcná pro pochopen´ı pojmu pravdˇepodobnost, nem˚ uˇze b´ yt pouˇzita jako definice pravdˇepodobnosti. Klasick´ a pravdˇ epodobnost Nejprve budeme diskutovat klasickou pravdˇ epodobnost, která vyuˇz´ıvá pojem pravdˇepodobnostn´ıho modelu, ve kterém kaˇzd´ y jev má stejnou moˇznost, ˇze nastane. Pojem stejné moˇznosti vˇsech jev˚ u chápeme jako jakousi apriorn´ı rovnocenost vˇsech moˇzn´ ych v´ ysledk˚ u pokusu, jako objektivn´ı vlastnost moˇzn´ ych variant pr˚ ubˇehu pokusu. Zhruba ˇreˇceno, pˇredpokládá se, ˇze nen´ı d˚ uvod, abychom oˇcekávali jeden z v´ ysledk˚ u sp´ıˇse neˇz jin´ y. Pˇ r´ıklad 3.1 Klasick´ a pravdˇepodobnost ´ r´ı 40 studentu ˚ v jednom roˇcn´ıku na nˇejaké Uvaˇzujme tabulku cˇ etnost´ı a relativn´ıch cˇ etnost´ı staˇ ´ ´ univerzitˇe. Pˇredpokladejme, zˇe jsme vybrali jednoho studenta nahodnˇ e, m´ınˇeno t´ım, zˇe kaˇzdy´ ´ Urˇcete pravdˇepodobnost, zˇe nahodnˇ ´ student mˇel stejnou moˇznost, zˇe bude vybran. e vybranému studentovi je 20 let. ´ r´ı Staˇ ˇ Cetnost Relativn´ı cˇ .

18 2 0.050

19 9 0.225

20 7 0.175

21 7 0.175

22 5 0.125

23 3 0.075

24 4 0.100

26 1 0.025

35 1 0.025

36 1 0.025

ˇ sen´ı: Z druhého rˇadku ´ ˚ je ve vˇeku 20 let. Tud´ızˇ je sˇ ance 7 Reˇ tabulky je vidˇet, zˇe 7 ze 40 studentu ´ ku 40, zˇe nahodnˇ e vybranému studentovi bude 20 let. Pravdˇepodobnost je tud´ızˇ poˇcet 20 let stary´ ch studentu˚ 7 = . ˚ celkovy´ poˇcet studentu 40 ´ Vˇsimnˇeme si, zˇ e pravdˇepodobnost, zˇe nahodnˇ e vybranému studentovi je 20 let, je stejna´ jako rela˚ kterym ´ je 20 let (7/40 = 0.175). tivn´ı cˇ etnost studentu,

Definice 3.1

ˇ K LASICK A´ PRAVD EPODOBNOST

Pˇredpokládejme, ˇze existuje N stejnˇe moˇzn´ ych v´ ysledk˚ u nˇejakého pokusu, z nichˇz f má za následek nastoupen´ı urˇcitého jevu, zat´ımco zbyl´ ych N − f je vyluˇcuje. Pak pravdˇepodobnost, ˇze urˇcit´ y jev nastane, je rovna poˇctu f opakován´ı pokusu, pˇri kter´ ych tento jev nastal, dˇelenému celkov´ ym poˇctem N moˇzn´ ych v´ ysledk˚ u. Jin´ ymi slovy, pravdˇepodobnost jevu =

f poˇcet pˇr´ıpad˚ u, kdy jev nastal = . celkov´ y poˇcet moˇzn´ ych v´ ysledk˚ u N

Klasickou definici“ pravdˇepodobnosti nepokládáme dnes jiˇz za definici, ale pouze za metodu ” v´ ypoˇctu pravdˇepodobnost´ı.

32

´ ´ JEVY 3.2 N AHODN E

Pˇ r´ıklad 3.2 Ilustrace definice 3.1 ´ ıme se opˇet k pˇr´ıkladu 3.1. Urˇcete pravdˇepodobnost, zˇ e nahodnˇ ´ Vrat´ e vybraný student bude mladˇs´ı neˇz 21 let. ˇ sen´ı: Z tabulky k pˇr´ıkladu 3.1 je vidˇet, zˇe 18 (2+9+7) studentum ˚ Reˇ je ménˇe neˇz 21 let. Takˇze f = 18 a pravdˇepodobnost je rovna f 18 = = 0.450. N 40

Pravdˇ epodobnosti a procenta V pˇr´ıkladu 3.1 jsme upozornili na to, ˇze pravdˇepodobnost, ˇze náhodnˇe vybran´ y student bude mladˇs´ı neˇz 20 let, je rovna relativn´ı ˇcetnosti dvacetilet´ ych student˚ u. Pˇredpokládejme, ˇze pokus spoˇc´ıvá v náhodném v´ ybˇeru jedné statistické jednotky z koneˇcného souboru. Pak pravdˇepodobnost, ˇze urˇcit´ y jev nastane, je rovna relativn´ı ˇcetnosti (procentu) poˇctu tˇech jednotek souboru, které splˇ nuj´ı podm´ınky kladené na jev. ˇ je romské národnosti také znamená, ˇze Tud´ıˇz, napˇr´ıklad skuteˇcnost, ˇze 10% obyvatel CR ˇ bude Rom, je rovna 0.10. pravdˇepodobnost, ˇze náhodnˇe vybran´ y obˇcan CR Z´ akladn´ı vlastnosti pravdˇ epodobnost´ı 1. Pravdˇepodobnost jevu je vˇetˇs´ı nebo rovna 0 a menˇs´ı nebo rovna 1. y nem˚ uˇze nastat, je rovna 0. Jev, kter´ y nem˚ uˇze nastat, se 2. Pravdˇepodobnost jevu, kter´ naz´ yvá nemoˇ zn´ y jev. 3. Pravdˇepodobnost jevu, kter´ y mus´ı nastat, je rovna 1. Jev, kter´ y mus´ı nastat, se naz´ yvá jist´ y jev. V nˇekter´ ych pˇr´ıpadech nen´ı splnˇen základn´ı poˇzadavek klasické definice pravdˇepodobnosti, tj. pˇredpoklad stejné moˇznosti vˇsech jev˚ u. V takov´ ych pˇr´ıpadech mus´ıme pouˇz´ıt jiné metody urˇcen´ı pravdˇepodobnost´ı. Nˇekter´ ymi metodami se budeme zab´ yvat pozdˇeji v této kapitole.

3.2

N´ ahodn´ e jevy

Neˇz budeme pokraˇcovat ve studiu pravdˇepodobnosti, mus´ıme se seznámit podrobnˇeji s pojmem náhodný jev. Zat´ım jsme pouˇz´ıvali slovo jev intuitivnˇe. Necht’ pokus spoˇc´ıvá v házen´ı pravidelnou kostkou, zhotovenou z homogenn´ıho materiálu. Pak pˇri jednom hodu m˚ uˇze nastat jeden z 6 moˇzn´ ych v´ ysledk˚ u tohoto pokusu, to je, ˇze padne jedno z ˇc´ısel 1, 2, 3, 4, 5, 6. Tyto v´ ysledky pokusu naz´ yváme element´ arn´ı jevy daného pokusu. Vˇsechny elementárn´ı jevy daného pokusu tvoˇr´ı prostor element´ arn´ıch jev˚ u. Kaˇzdou podmnoˇzinu prostoru elementárn´ıch jev˚ u naz´ yváme n´ ahodn´ y jev. Náhodn´ y jev m˚ uˇze b´ yt totoˇzn´ y s nˇekter´ ym jevem elementárn´ım. Systém vˇsech jev˚ u naz´ yváme jevov´ e pole pro dan´ y pokus. S naˇs´ım pokusem je spjato mnoho r˚ uzn´ ych jev˚ u. Budeme uvaˇzovat následuj´ıc´ı tˇri a urˇc´ıme z kter´ ych elementárn´ıch jev˚ u jsou sloˇzeny : a ) Jev spoˇc´ıvaj´ıc´ı v tom, ˇze pˇri hodu jednou kostkou padne ˇc´ıslo 4. b ) Jev spoˇc´ıvaj´ıc´ı v tom, ˇze pˇri hodu jednou kostkou padne liché ˇc´ıslo. c ) Jev spoˇc´ıvaj´ıc´ı v tom, ˇze pˇri hodu jednou kostkou padne ˇc´ıslo dˇelitelné dvˇema. 33

K APITOLA 3


Prvn´ı jev nastane, padne-li pˇri hodu kostkou ˇc´ıslo 4. Druh´ y jev je tvoˇren tˇremi v´ ysledky a sice: padne ˇc´ıslo 1, padne ˇc´ıslo 3, padne ˇc´ıslo 5. Tˇret´ı jev je tvoˇren tˇremi v´ ysledky a sice: padne ˇc´ıslo 2, padne ˇc´ıslo 4, padne ˇc´ıslo 6. Jestliˇze pˇri hodu jednou kostkou padne ˇc´ıslo 3, pak nastane druh´ y jev, zat´ımco prvn´ı a tˇret´ı jev nenastane. V následuj´ıc´ı definici 3.2 je shrnuta terminologie, kterou jsme zavedli v tomto pˇr´ıkladu. Definice 3.2

´ Í CH P ROSTOR ELEMENT ARN

˚ , JEVY, JEVOV E´ POLE JEV U

Prostor elementarn´ azdná mnoˇzina Ω vˇsech moˇzn´ ych v´ ysledk˚ u urˇcitého ´ ıch jevu: ˚ Nepr´ pokusu. Prvky Ω se naz´ yvaj´ı elementárn´ı jevy a znaˇc´ıme je ω. Jevove´ pole: Syst´ em A podmnoˇzin prostoru elementárn´ıch jev˚ u. Prvky A ∈ A se nazávaj´ı náhodné jevy.

3.2.1

Vztahy mezi jevy

Jevy budeme oznaˇcovat velk´ ymi p´ısmeny A, B, C, · · · . Jev jist´ y budeme oznaˇcovat Ω a jev nemoˇzn´ y ∅. Mezi jevy existuj´ı nˇekteré vztahy známé z teorie mnoˇzin. Dva jevy, které pˇri kaˇzdém v´ ysledku pokusu bud’to oba nastanou nebo ani jeden ani druh´ y nenastane, povaˇzujeme za sobˇe rovny. Okolnost, ˇze jevy A a B jsou rovnocenn´ e, zapisujeme A = B. Okolnost, ˇze jev A nenastal, je také urˇcit´ y jev; oznaˇc´ıme jej A nebo Ac a nazveme jevem opaˇ cn´ ym. Kaˇzd´ ym dvˇema jev˚ um A a B m˚ uˇzeme pˇriˇradit dva nové jevy. Jeden jev je urˇcen podm´ınkou, ˇze oba jevy A a B nastanou souˇcasnˇe“, je oznaˇcován A ∩ B nebo AB a naz´ yváme ho ” pr˚ unikem jev˚ u A a B. Jev A ∩ B tvoˇr´ı vˇsechny v´ ysledky pokusu spoleˇcné obˇema jev˚ um. Druh´ y jev pˇriˇrazen´ y k obˇema jev˚ um A a B je urˇcen podm´ınkou, ˇze bud’ nastane jev A ” nebo jev B nebo nastanou oba“ nebo ekvivalentnˇe alespoˇ n jeden z jev˚ u A a B nastane“. ” Tento jev je oznaˇcován A ∪ B nebo A + B a naz´ yváme ho sjednocen´ım jev˚ u A a B. Jev A ∪ B tvoˇr´ı vˇsechny v´ ysledky, pˇri kter´ ych nastane jev A nebo jev B nebo oba jevy. Rozd´ılem jev˚ u A a B naz´ yváme jev spoˇc´ıvaj´ıc´ı v nastoupen´ı jevu A a v nenastoupen´ı jevu B. Oznaˇcujeme jej A − B. Na závˇer se zm´ın´ıme jeˇstˇe o jednom vztahu mezi jevy. Jestliˇze pˇri kaˇzdé realizaci jevu A nastává i jev B, pak ˇr´ıkáme, ˇze jev A má za následek jev B, neboli jev A je ˇca´st´ı jevu B, symbolicky A ⊂ B. Jevy ˇcasto zapisujeme v´ yˇctem elementárn´ıch jev˚ u ve sloˇzené závorce nebo pomoc´ı logického v´ yroku v hranaté závorce, napˇr. pro hod kostkou A = {2, 4, 6} = [padlo sudé ˇc´ıslo]. Definice 3.3 shrnuje pojmy popisuj´ıc´ı vztahy mezi jevy. Definice 3.3

V ZTAHY MEZI

JEVY

Necht’ A a B jsou jevy. Pak A je jev, ˇze A nenastal“. ” A ∩ B nebo AB je jev, A a B nastaly souˇcasnˇe“. ” A ∪ B nebo A + B je jev, bud’ A nebo B nebo oba nastaly“. ” A − B je jev, ˇze A nastal a zároveˇ n B nenastal“. ” A ⊂ B znamená, ˇze v´ yskyt jevu A má za následek v´ yskyt jevu B. Protoˇze v´ yrok A a B nastaly souˇcasnˇe“ je stejn´ y jako v´ yrok B a A nastaly souˇcasnˇe“, jev ” ” A ∩ B je stejn´ y jako jev B ∩ A. Stejnˇe tak plat´ı A ∪ B = B ∪ A. 34

´ ´ JEVY 3.2 N AHODN E

ˇ Casto se uˇz´ıvaj´ı de Morganova pravidla (A ∪ B) = A B,

AB = A ∪ B,

která plat´ı i pro sjednocen´ı ˇci pr˚ unik vˇetˇs´ıho poˇctu jev˚ u. Pˇ r´ıklad 3.3 Ilustrace definice 3.3 V pokusu spoˇc´ıvaj´ıc´ım v jednom hodu pravidelnou hrac´ı kostkou oznaˇcme: A = [ jev, zˇe padne cˇ´ıslo 4 ], B = [ jev, zˇe padne cˇ´ıslo vˇetˇs´ı neˇz 2 ], C = [ jev, zˇe padne liché cˇ´ıslo ], D = [ jev, zˇe padne cˇ´ıslo dˇelitelné 2 ]. ´ Urˇcete nasleduj´ ıc´ı jevy: a ) A, b ) B ∩ C, c ) B ∪ D, d ) D − A. ˇ Reˇsen´ı: V tomto pˇr´ıpadˇe je Ω = {1, 2, 3, 4, 5, 6} a ) A je jev, zˇe nenastal jen A, tj., zˇe nepadne cˇ´ıslo 4. Tud´ızˇ A = {1, 2, 3, 5, 6}. ´ ˇ zˇe padne b ) B ∩ C je jev, zˇ e nastaly jevy C a B souˇcasnˇe, tj., zˇe padne cˇ´ıslo vˇetˇs´ı neˇz 2 a zarove n, liché cˇ´ıslo. Tento jev nastane, pokud výsledkem pokusu bude jedno ze dvou cˇ´ısel 3 a 5, tj. B ∩ C = {3, 5}. c ) B ∪ D je jev, zˇ e bud’ padne cˇ´ıslo vˇetˇs´ı neˇz 2, nebo cˇ´ıslo dˇelitelné dvˇema nebo oba jevy. Takovy´ ´ a´ z pˇeti jednotlivy´ ch vysledk ´ ˚ a sice B ∪ D = {2, 3, 4, 5, 6}. jev se sklad u d ) D − A je jev, zˇe nastane D, ale nenastane A. Tento jev nastane, kdyˇz pˇri hodu kostkou padne ˇ D − A = {2, 6}. cˇ ´ıslo 2 nebo cˇ´ıslo 6. Cili

3.2.2

Vz´ ajemnˇ e nesluˇ citeln´ e jevy

Dva jevy A a B jsou vz´ ajemnˇ e nesluˇ citeln´ e (nebo disjunktn´ı), jestliˇze nejv´ yˇse jeden z nich m˚ uˇze nastat. Pro dva vzájemnˇe nesluˇcitelné jevy A a B plat´ı A ∩ B = ∅. Máme následuj´ıc´ı definici. Definice 3.4

´ ˇ NESLU CITELN ˇ ´ JEVY DVA VZ AJEMN E E

O dvou jevech ˇrekneme, ˇze jsou vz´ ajemnˇ e nesluˇ citeln´ e, jestliˇze nastal jeden, nemohl nastat druh´ y, tj. nemaj´ı ˇzádn´ y spoleˇcn´ y v´ ysledek. Pˇ r´ıklad 3.4 Ilustrace definice 3.4 V pokusu spoˇc´ıvaj´ıc´ım v jednom hodu pravidelnou hrac´ı kostkou oznaˇcme A = [ jev, zˇe padne cˇ´ıslo vˇetˇs´ı neˇz 2], B = [ jev, zˇe padne liché cˇ ´ıslo], C = [ jev, zˇe padne cˇ´ıslo dˇelitelné dvˇema]. ´ ˚ jsou vzajemnˇ ´ Urˇcete, které z nasleduj´ ıc´ıch dvojic jevu e nesluˇcitelné: a ) A, B ˇ Reˇsen´ı:

b ) A, C

c ) B, C.

a ) Jevy A a B nejsou nesluˇcitelné. Oba jevy nastanou, kdyˇz padne cˇ´ıslo 3 nebo 5. b ) Jevy A a C nejsou nesluˇcitelné. Oba jevy nastanou, kdyˇz padne cˇ´ıslo 4 nebo cˇ´ıslo 6. c ) Jevy B a C jsou nesluˇcitelné. Oba nemohou souˇcasnˇe nastat pˇri hodu jednou kostkou, nebot’ ´ ˇ liché cˇ´ıslo a cˇ´ıslo dˇelitelné dvˇema. je nemoˇzné, aby padlo zarove n

35

K APITOLA 3


Pojem vzájemnˇe nesluˇcitelné jevy lze rozˇs´ıˇrit na v´ıce neˇz dva jevy. Definice 3.5

´ ˇ NESLU CITELN ˇ ´ JEVY V Z AJEMN E E

Jevy A1 , A2 , · · · , As jsou vz´ ajemnˇ e nesluˇ citeln´ e, jestliˇze ˇza´dné dva z nich nemohou nastat souˇcasnˇe, tj. kaˇzdá dvojice Ai , Aj splˇ nuje podm´ınku Ai ∩ Aj = ∅, i 6= j , i, j = 1, 2, · · · , s.

3.3

Axiomatick´ a definice pravdˇ epodobnosti

Obecná teorie pravdˇepodobnosti, která zahrnuje v pˇredcházej´ıc´ıch ˇcástech uvedené v´ yklady pojmu pravdˇepodobnost, vycház´ı z následuj´ıc´ıch axiom˚ u: 1. Je dán prostor elementárn´ıch jev˚ u Ω 6= ∅. 2. Je dáno jevové pole A podmnoˇzin Ω splˇ nuj´ıc´ı podm´ınky: (a) Ω ∈ A (b) jestliˇze A ∈ A, potom A ∈ A (c) je-li A1 , A2 , · · · , An , · · · koneˇcná nebo spoˇcetná posloupnost jev˚ u patˇr´ıc´ıch do A, S∞ potom sjednocen´ı n=1 An ∈ A. 3. Kaˇzdému jevu A ∈ A je pˇriˇrazena pravdˇ epodobnost P (A) tohoto jevu; P je mnoˇzinová funkce zobrazuj´ıc´ı A na interval h0, 1i s vlastnostmi: (α) P (Ω) = 1 (β) pro kaˇzdou koneˇcnou nebo spoˇcetnou posloupnost vzájemnˇe nesluˇciteln´ ych jev˚ u S P∞ A1 , A2 , · · · , An , · · · patˇr´ıc´ıch do A plat´ı P ( ∞ A ) = P (A ). n n=1 n n=1 Je-li Ω koneˇcná nebo spoˇcetná mnoˇzina, potom je obyˇcejnˇe A systém vˇsech podmnoˇzin Ω. Definice 3.6

ˇ Í PROSTOR ( PRAVD Eˇ PODOBNOSTN Í MODEL ) P RAVD EPODOBNOSTN

Pravdˇepodobnostn´ım prostorem naz´ yváme trojici (Ω, A, P), kde Ω je neprázdná mnoˇzina,

A je systém podmnoˇzin Ω, na kterém je definována mnoˇzinová funkce P tak, ˇze jsou splnˇeny axiomy (a)–(c) a (α), (β). Z axiom˚ u uveden´ ych v´ yˇse lze odvodit následuj´ıc´ı vlastnosti pravdˇepodobnosti: 1. P (∅) = 0 2. jestliˇze A ⊂ B =⇒ P (A) ≤ P (B) 3. jestliˇze A ⊂ B =⇒ P (B − A) = P (B) − P (A). Axiomatická teorie pravdˇepodobnosti vycház´ı z axiom˚ u, na jejichˇz základˇe formuluje obecnˇe platné vˇety a podává tak návod, jak ze znalosti pravdˇepodobnost´ı jednˇech jev˚ u urˇcit pravdˇepodobnosti jin´ ych jev˚ u, které s nimi dan´ ym zp˚ usobem souvis´ı. 36

´ Í S PRAVD Eˇ PODOBNOSTMI 3.4 P RAVIDLA PRO PO Cˇ Í T AN

3.4

Pravidla pro poˇ c´ıt´ an´ı s pravdˇ epodobnostmi

V této ˇcásti se seznám´ıme s nˇekter´ ymi pravidly pro v´ ypoˇcet pravdˇepodobnost´ı.

3.4.1

Pravidlo o sˇ c´ıt´ an´ı pravdˇ epodobnost´ı

Prvn´ı pravidlo, kter´ ym se budeme zab´ yvat, je pravidlo pro sˇc´ıtán´ı pravdˇepodobnost´ı pro libovolné jevy. Vzorec 3.1

Pravdˇepodobnost sjednocen´ı libovolných jev˚ u

Necht’ A a B jsou dva libovolné jevy, pak P (A ∪ B) = P (A) + P (B) − P (A ∩ B). Obecnˇe, jestliˇze A1 , A2 , · · · , As , s > 2 jsou libovolné jevy, pak P(

s [

)=

i=1

s X i=1

P (Ai ) −

s X

P (Ai Aj ) +

i<j

s X

P (Ai Aj Ak ) + ... + (−1)s−1 P (A1 A2 ...As ).

i<j
Pˇ r´ıklad 3.5 Ilustrace vzorce 3.1 ˚ ´ ´ ´ Pruzkum sledovanosti televizn´ıho poˇradu Aréna manˇzelskymi pary ukazal, zˇe pravidelnˇe tento ˚ Zarove ´ ˇ se ukazalo, ´ poˇrad sleduje 30% vˇsech manˇzelek a 50% vˇsech manˇzelu. n zˇe tento poˇrad ´ ´ u. ˚ Nahodnˇ ´ ´ Jaka´ je pravdˇepodobnost, zˇe sleduje 18% manˇzelskych par e vybereme manˇzelsky´ par. ˇ jeden z manˇzelu. ˚ poˇrad bude sledovat alespon ˇ sen´ı: Oznaˇcme A = [poˇrad sleduje manˇzelka] a B = [poˇrad sleduje manˇzel]. Ze zadan´ ´ ı pˇr´ıkladu Reˇ ˇ plyne, zˇe P (A) = 0.30 a P (B) = 0.50 a P (A ∩ B) = 0.18. Je zˇrejmé, zˇ e jev [poˇrad sleduje alespon ˚ je roven sjednocen´ı jevu ˚ A a B. Podle vzorce 3.1 pro vypoˇ ´ cet pravdˇepodobnosti jeden z manˇzelu] ˚ dostaneme sjednocen´ı dvou jevu P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 0.30 + 0.50 − 0.18 = 0.62. ´ ´ sleduje TV poˇrad Aréna, je rovna 0.62. Tud´ızˇ pravdˇepodobnost, zˇe nahodnˇ e vybraný manˇzelský par

3.4.2

Pravidlo pro pravdˇ epodobnost opaˇ cn´ eho jevu

Druhé pravidlo, kter´ ym se budeme zab´ yvat je pravidlo pro v´ ypoˇcet pravdˇepodobnosti opaˇcného jevu, které stanov´ı, ˇze pravdˇepodobnost, ˇze jev nastal se rovná 1 minus pravdˇepodobnost, ˇze jev nenastal. Vzorec 3.2

Pravdˇepodobnost opaˇcného jevu

Pro kaˇzd´ y jev A ∈ A plat´ı P (A) = 1 − P (A). Toto pravidlo je d˚ uleˇzité z toho d˚ uvodu, ˇze je nˇekdy jednoduˇsˇs´ı vypoˇc´ıtat pravdˇepodobnost P (A), ˇze jev nenastal, neˇz pravdˇepodobnost P (A), ˇze jev nastal.

37

K APITOLA 3


Pˇ r´ıklad 3.6 Ilustrace vzorce 3.2 ´ ´ ´ Urˇcete praUvaˇzujme opˇet pˇr´ıklad 3.1. Pˇredpokladejme, zˇ e jeden student byl nahodnˇ e vybran. ´ r´ı nahodnˇ ´ vdˇepodobnost, zˇe staˇ e vybraného studenta bude ménˇe neˇz 36 let. ˇ sen´ı: Necht’ A oznaˇcuje jev, zˇe staˇ ´ r´ı nahodnˇ ´ Reˇ e vybraného studenta bude ménˇe neˇz 36 let. K tomu, abychom urˇcili P (A), pouˇzijeme pravidlo o pravdˇepodobnosti opaˇcného jevu, nebot’ je jednoduˇssˇ´ı ´ r´ı nahodnˇ ´ spoˇc´ıtat P (A). Poznamenejme, zˇe jev A je jev, zˇe staˇ e vybraného studenta je 36 let. Z tabulky relativn´ıch cˇ etnost´ı snadno zjist´ıme, zˇe P (A) = 0.025. Pouˇzit´ım pravidla o pravdˇepodobnosti opaˇcného jevu dostaneme, zˇ e P (A) = 1 − P (A) = 1 − 0.025 = 0.975. ´ r´ı nahodnˇ ´ Pravdˇepodobnost, zˇe staˇ e vybraného studenta bude niˇzsˇ´ı neˇz 36 let, je rovna 0.975.

3.4.3

Pravidlo o podm´ınˇ en´ e pravdˇ epodobnosti

V této ˇca´sti zavedeme pojem podm´ınˇen´ a pravdˇepodobnost. Podm´ınˇ en´ a pravdˇ epodobnost jevu je pravdˇepodobnost, ˇze jev nastane za podm´ınky, ˇze jin´ y jev nastal. Definice 3.7

P ODM Í N Eˇ N A´ PRAVD Eˇ PODOBNOST

Pˇredpokládejme, ˇze A, B jsou jevy. Potom pravdˇepodobnost, ˇze nastane jev A za podm´ınky, ˇze nastal jev B, se naz´ yvá podm´ınˇ en´ a pravdˇ epodobnost. Oznaˇcujeme ji symbolem P (A|B), kter´ y ˇcteme pravdˇepodobnost jevu A za podm´ınky B“. ” Pˇ r´ıklad 3.7 Ilustrace definice 3.7 ´ pravidelnou hrac´ı kostkou, pak muˇ ˚ ze nastat 6 stejnˇe moˇzných vysledk ´ ˚ Hod´ıme-li jedenkrat u, ´ tj. Ω = {1, 2, 3, 4, 5, 6}. Necht’ A = [padne cˇ´ıslo 5] a L = [padne liché cˇ´ıslo]. Urˇcete nasleduj´ ıc´ı pravdˇepodobnosti: a ) Pravdˇepodobnost, zˇ e padlo cˇ´ıslo 5. b ) Podm´ınˇenou pravdˇepodobnost, zˇe padne cˇ´ıslo 5, za podm´ınky, zˇe padlo liché cˇ´ıslo. c ) Podm´ınˇenou pravdˇepodobnost, zˇe padne liché cˇ´ıslo, za podm´ınky, zˇe nepadlo cˇ´ıslo 5. ˇ sen´ı: Reˇ a ) Vzhledem k tomu, zˇe je sˇ est moˇzných výsledku˚ pˇri hodu jednou kostkou a jev A nastane jen pokud padne cˇ ´ıslo 5, je 1 P (A) = = 0.167. 6 ´ ˚ ale b ) V tomto pˇr´ıpadˇe nastal jev L, zˇe padlo liché cˇ´ıslo, tud´ızˇ uˇz nen´ı sˇ est moˇzných vysledk u, ´ ´ ıch jevu ˚ je nyn´ı Ω1 = {1, 3, 5}. Tud´ızˇ podm´ınˇena´ pouze 3 moˇzné vysledky. Prostor elementarn´ pravdˇepodobnost je 1 P (A|L) = = 0.333. 3 ´ Porovname-li tuto pravdˇepodobnost s pravdˇepodobnost´ı vypoˇctenou v a ) vid´ıme, zˇe P (A|L) ´ v´ıme-li, zˇe padlo liché cˇ ´ıslo, pak to ma´ vliv na pravdˇepodobnost, zˇe 6 P (A); to znamena, = padne cˇ´ıslo 5.

38

´ Í S PRAVD Eˇ PODOBNOSTMI 3.4 P RAVIDLA PRO PO Cˇ Í T AN ´ ıch jevu ˚ je Ω2 = {1, 2, 3, 4, 6}. c ) Pokud padlo jiné cˇ´ıslo neˇz 5, nastal jev A a prostor elementarn´ Za této podm´ınky jev L nastane v pˇr´ıpadˇe, zˇe padlo cˇ´ıslo 1 nebo cˇ´ıslo 3. Tud´ızˇ podm´ınˇena´ pravdˇepodobnost, zˇe padne liché cˇ´ıslo za podm´ınky, zˇe nepadlo cˇ´ıslo 5 je P (L|A) =

2 = 0.40. 5

Pravidlo podm´ınˇ en´ e pravdˇ epodobnosti V pˇredcházej´ıc´ım pˇr´ıkladu jsme poˇc´ıtali podm´ınˇené pravdˇepodobnosti pˇr´ımo, tj. nejprve jsme urˇcili nov´ y prostor elementárn´ıch jev˚ u za podm´ınky, ˇze nastal urˇcit´ y jev a pak jsme poˇc´ıtali pravdˇepodobnosti obvykl´ ym zp˚ usobem. Avˇsak nˇekdy nem˚ uˇzeme podm´ınˇené pravdˇepodobnosti urˇcit pˇr´ımo, ale mus´ıme je poˇc´ıtat pomoc´ı pravdˇepodobnost´ı nepodm´ınˇen´ ych. Vzorec 3.3

Pravidlo podm´ınˇené pravdˇepodobnosti

Jestliˇze A, B jsou dva jevy takové, ˇze P (B) > 0, potom P (A|B) =

P (A ∩ B) . P (B)

Jin´ ymi slovy, podm´ınˇená pravdˇepodobnost, ˇze nastane jev A za podm´ınky, ˇze nastal jev B, je rovna pravdˇepodobnosti pr˚ uniku jev˚ u A a B dˇelenému pravdˇepodobnost´ı jevu B. V pˇr´ıkladu 3.7 jsme podm´ınˇené pravdˇepodobnosti vypoˇc´ıtali pˇr´ımo, m˚ uˇzeme je vˇsak také urˇcit pomoc´ı pravidla pro podm´ınˇenou pravdˇepodobnost. Pˇ r´ıklad 3.8 Ilustrace vzorce 3.3 Uvaˇzujme pˇr´ıklad 3.7. Vypoˇcteme pravdˇepodobnosti P (A|L) a P (L|A) pomoc´ı vzorce 3.3. ˇ sen´ı: Nejprve vypoˇcteme P (A|L). V tomto pˇr´ıpadˇe je jev A ∩ L rovnocenny´ s jevem A, tj. A ∩ L = Reˇ {5} = L. Pomoc´ı vzorce 3.3 dostaneme P (A|L) =

P (A ∩ L) P (A) = = P (L) P (L)

1 6 3 6

=

1 = 0.333. 3

2 6 5 6

=

2 . 5

V pˇr´ıpadˇe výpoˇctu P (L|A) je L ∩ A = {1, 3} a P (L|A) =

3.4.4

P (L ∩ A) = P (A)

Pravidlo pro n´ asoben´ı pravdˇ epodobnost´ı; nez´ avislost jev˚ u

Pravidlo pro podm´ınˇenou pravdˇepodobnost, vzorec 3.3 pouˇz´ıváme pro v´ ypoˇcet podm´ınˇen´ ych pravdˇepodobnost´ı pomoc´ı nepodm´ınˇen´ ych pravdˇepodobnost´ı. Vynásob´ıme-li obˇe strany rovnice ve vzorci 3.3 pravdˇepodobnost´ı P (B), dostaneme vzorec pro v´ ypoˇcet pravdˇepodobnosti pr˚ uniku jev˚ u A a B pomoc´ı nepodm´ınˇené pravdˇepodobnosti jevu B a podm´ınˇené pravdˇepodobnosti P (A|B). Vzorec, kter´ y dostaneme, se naz´ yvá pravidlo pro násoben´ı a je uvedeno ve vzorci 3.4. 39

K APITOLA 3

Vzorec 3.4


Pravidlo pro násoben´ı pravdˇepodobnost´ı

Jestliˇze A, B jsou dva jevy, pak P (A ∩ B) = P (B) · P (A|B). Jsou-li A1 , A2 , · · · , As jevy, P (A1 · · · As ) > 0, s ≥ 2, pak plat´ı P (A1 A2 · · · As ) = P (A1 )P (A2 |A1 )P (A3 |A1 A2 ) · · · P (As |A1 A2 · · · As−1 ).

Pˇ r´ıklad 3.9 Ilustrace vzorce 3.4 ´ ej´ıc´ı stejny´ vyrobek ´ ´ Dva dˇeln´ıci vyrabˇ se liˇs´ı produktivitou i kvalitou prace. Zat´ımco prvn´ı z nich ´ ı v prumˇ ˚ eru 60% a druhy´ 40% denn´ı produkce, je mezi vyrobky ´ ˚ eru 10% vyrab´ prvého v prumˇ ˚ a u druhého 5% zmetku. ˚ Urˇcitého dne vybereme z produkce nahodnˇ ´ ´ zmetku e jeden vyrobek. ´ ı od prvn´ıho dˇeln´ıka a je Jaka´ je pravdˇepodobnost, zˇe vybereme výrobek, ktery´ souˇcasnˇe pochaz´ zmetek? ˇ sen´ı: Oznaˇcme A jev, zˇe z produkce urˇcitého dne vybereme nahodnˇ ´ ´ Reˇ e vyrobek prvn´ıho dˇeln´ıka a B oznaˇcme jev, zˇe vybereme zmetek. Hodnoty pravdˇepodobnost´ı budou P (A) = 0.60, P (B|A) = ´ 0.10. Podle pravidla pro nasoben´ ı dostaneme P (A ∩ B) = P (A) · P (B|A) = 0.60 · 0.10 = 0.06. ´ ´ ı od prvn´ıho dˇeln´ıka a je zmePravdˇepodobnost, zˇ e vybereme vyrobek, ktery´ souˇcasnˇe pochaz´ tek je 0.06.

Nez´ avislost jev˚ u Dva jevy A a B se naz´ yvaj´ı statisticky nez´ avisl´ e, jestliˇze pravdˇepodobnost nastoupen´ı nebo nenastoupen´ı jednoho z jev˚ u neovlivˇ nuje pravdˇepodobnost nastoupen´ı nebo nenastoupen´ı druhého jevu. Definice 3.8

´ S TATISTICK A´ NEZ AVISLOST

Jev B je statisticky nezavisl y´ na jevu A, jestliˇ ze nastoupen´ı jevu A neovlivˇ nuje ´ pravdˇepodobnost, ˇze jev B nastoup´ı. Symbolicky P (B|A) = P (B). To znamená, ˇze informace o tom, ˇze nastal jev A, neposkytuje ˇzádnou pravdˇepodobnostn´ı informaci o nastoupen´ı jevu B. Z d˚ uvodu struˇcnosti budeme napˇr´ıˇstˇe pouˇz´ıvat term´ın nez´ avislý m´ısto statisticky nezávislý. Pˇ r´ıklad 3.10 Ilustrace definice 3.8 ´ hrac´ı kostkou. Uvaˇzujme nasleduj´ ´ Hod´ıme jedenkrat ıc´ı jevy: A = [padne cˇ´ıslo vˇetˇs´ı neˇz 4], B = ´ [padne sudé cˇ ´ıslo], C = [padne cˇ´ıslo dˇelitelné 3]. Urˇcete, zda a ) jev A je nezavisl´ y na jevu B; ´ b ) jev A je nezavisl y´ na jevu C.

40

´ Í S PRAVD Eˇ PODOBNOSTMI 3.4 P RAVIDLA PRO PO Cˇ Í T AN ˇ sen´ı: Reˇ a ) Nepodm´ınˇena´ pravdˇepodobnost jevu A je P (A) = 26 = 0.333. K tomu, abychom zjistili, zda jev ´ A je nezavisl y´ na jevu B, mus´ıme vypoˇc´ıtat P (A|B) a porovnat ji s P (A). P (A|B) =

1 = 0.333. 3

ˇ Vid´ıme, zˇe P (A|B) = P (A). Tud´ızˇ nastoupen´ı jevu B neovlivnuje pravdˇepodobnost, zˇe nas´ zˇe jev A je nezavisl ´ tane jev A. To znamena, y´ na jevu B. b ) Nyn´ı potˇrebujeme spoˇc´ıtat P (A|C) a porovnat ji s P (A). P (A|C) =

1 = 0.5. 2

ˇ Tato pravdˇepodobnost se nerovna´ P (A). Tud´ızˇ nastoupen´ı jevu C ovlivnuje pravdˇepodobnost, ´ zˇe jev A nen´ı nezavisl´ ´ zˇe nastane jev A. To znamena, y na jevu C.

Jestliˇze jev B je nezávisl´ y na jevu A, pak také plat´ı, ˇze jev A je nezávisl´ y na jevu B. Proto ˇcasto ˇr´ıkáme, ˇze jevy A a B jsou nez´ avisl´ e, nebo ˇze A a B jsou nez´ avisl´ e jevy. Definici nezávislosti zobecn´ıme pro s > 2 jev˚ u. Jevy A1 , A2 , · · · , As jsou vz´ ajemnˇ e nez´ avisl´ e, jestliˇze pro kaˇzdou koneˇcnou podmnoˇzinu {s1 , s2 , · · · , sk } ⊂ N+ indexové mnoˇziny pˇrirozen´ ych ˇc´ısel plat´ı P (As1 ∩ As2 ∩ · · · ∩ Ask ) = P (As1 )P (As2 )...P (Ask ). Pravidlo o n´ asoben´ı pravdˇ epodobnost´ı pro vz´ ajemnˇ e nez´ avisl´ e jevy Jestliˇze jevy A a B jsou nezávislé, pak plat´ı P (A|B) = P (A). Tud´ıˇz pro vzájemnˇe nezávislé jevy dostaneme následuj´ıc´ı pravidlo o násoben´ı pravdˇepodobnost´ı. Vzorec 3.5

Pravidlo o násoben´ı pravdˇepodobnost´ı pro vzájemnˇe nezávislé jevy

Jestliˇze A, B jsou dva nezávislé jevy, pak P (A ∩ B) = P (A) · P (B), a naopak, jestliˇze P (A ∩ B) = P (A)P (B), pak A a B jsou nezávislé jevy. Jsou-li A1 , A2 , · · · , As vzájemnˇe nezávislé jevy, pak plat´ı P (A1 A2 · · · As ) = P (A1 )P (A2 ) · · · P (As ). Jin´ ymi slovy, dva jevy jsou nezávislé právˇe tehdy, jestliˇze pravdˇepodobnost souˇcasného nastoupen´ı obou jev˚ u je rovna souˇcinu pravdˇepodobnost´ı jednotliv´ ych jev˚ u. Pˇ r´ıklad 3.11 Ilustrace vzorce 3.5 ´ ˚ Pravdˇepodobnost, zˇe nˇeco proda, ´ je 0.20 u kaˇzdého Obchodn´ı cestuj´ıc´ı navˇst´ıv´ı dennˇe 12 zakazn´ ıku. ´ ˚ zakazn´ ıka. Jaka´ je pravdˇepodobnost, zˇe obchodn´ık neproda´ za den vubec nic?

41

K APITOLA 3


ˇ sen´ı: Oznaˇcme Ai jev, zˇe i-ty´ zakazn´ ´ ´ ı je P (Ai ) = Reˇ ık nic nekoup´ı, i = 1, · · · , 12. Vzhledem k zadan´ T12 ´ oznaˇcme A jev, zˇe zˇadn ´ y´ zakazn´ ´ 1 − 0.20 = 0.80. Dale ık nic nekoup´ı. Potom P (A) = P ( i=1 Ai ) = Q12 12 = 0.0687. i=1 P (Ai ) = 0.80

Nez´ avislost versus nesluˇ citelnost Je d˚ uleˇzité si uvˇedomit, ˇze pojmy vz´ ajemnˇe nesluˇcitelný a nez´ avislý jsou dva r˚ uzné pojmy. Vzájemnˇe nesluˇcitelné jevy jsou takové jevy, které nemohou nastat souˇcasnˇe. Nezávislé jevy jsou takové jevy, pro které plat´ı, ˇze pravdˇepodobnost jednoho z nich nezávis´ı na tom, zda druh´ y jev nastal nebo nenastal. Jestliˇze dva jevy jsou nesluˇcitelné, pak v´ yskyt jednoho znemoˇzn´ı v´ yskyt druhého, tj. dva nesluˇcitelné jevy nejsou urˇcitˇe nezávislé. Nen´ı moˇzné, aby dva jevy byly souˇcasnˇe nesluˇcitelné a nezávislé. Pouze jev jist´ y a jev nemoˇzn´ y jsou dva nesluˇcitelné a nezávislé jevy.

3.4.5

Vzorec u ´ pln´ e pravdˇ epodobnosti a Bayes˚ uv vzorec

Vzájemnˇe nesluˇcitelné jevy Hi , Hi ∈ A, i = 1, 2, · · · , s tvoˇr´ı u ´ pln´ y syst´ em jev˚ u, jestliˇze Ss Hi ) = 1. P (Hi ) > 0 pro kaˇzdé i = 1, 2, · · · , s a P ( i=1 Chceme urˇcit pravdˇepodobnost jevu A, kter´ y m˚ uˇze nastat jen ve spojen´ı s jedn´ım z jev˚ u H1 , H2 , · · · , Hs , které tvoˇr´ı u ´pln´ y systém jev˚ u. V tomto pˇr´ıpadˇe se jev A rozpadá na ˇcásteˇcné pˇr´ıpady A ∩ H1 , A ∩ H2 , · · · , A ∩ Hs . Jevy A ∩ Hi , i = 1, 2, · · · , s jsou vzájemnˇe nesluˇcitelné, S a A = si=1 (A ∩ Hi ). Protoˇze plat´ı P (A ∩ Hi ) = P (Hi )P (A|Hi ), dostáváme následuj´ıc´ı vzorec. Vzorec 3.6

Vzorec u ´plné pravdˇepodobnosti

Necht’ jevy Hi ∈ A, i = 1, 2, · · · , s tvoˇr´ı u ´pln´ y systém jev˚ u. Potom pro jev A ∈ A plat´ı P (A) =

s X

P (Hi )P (A|Hi ).

i=1

V pˇr´ıpadˇe, ˇze jsou známy nejen nepodm´ınˇené pravdˇepodobnosti P (Hi ) a podm´ınˇené pravdˇepodobnosti P (A|Hi ), ale je také známo, ˇze v´ ysledkem pokusu je nastoupen´ı jevu A, lze podm´ınˇené pravdˇepodobnosti P (Hi |A) vypoˇc´ıtat pomoc´ı Bayesova vzorce, kter´ y vypl´ yvá z pravidla o násoben´ı pravdˇepodobnost´ı a ze vzorce u ´plné pravdˇepodobnosti. Vzorec 3.7

Bayes˚ uv vzorec

Necht’ jevy Hi ∈ A i = 1, 2, · · · , s tvoˇr´ı u ´pln´ y systém jev˚ u, A ∈ A, P (A) > 0. Potom P (Hi )P (A|Hi ) . P (Hi |A) = Ps i=1 P (Hi )P (A|Hi ) V aplikac´ıch Bayesova vzorce maj´ı jevy Hi v´ yznam hypotéz, které se navzájem vyluˇcuj´ı a právˇe jedna je správná. P (Hi ) jsou jejich pravdˇepodobnosti pˇred proveden´ım doplˇ nuj´ıc´ıho pokusu nebo testu, ˇr´ıká se jim apriorn´ı pravdˇepodobnosti a jsou známy. P (·|Hi ) je pravdˇepodobnostn´ı m´ıra v´ ysledk˚ u testu za platnosti hypotézy Hi , která je ˇcasto známá. Bayes˚ uv 42

3.5 J IN E´ POHLEDY NA PRAVD Eˇ PODOBNOST

vzorec umoˇzn ˇuje vypoˇc´ıtat podm´ınˇené pravdˇepodobnosti hypotéz po proveden´ı pokusu nebo testu, pˇri nˇemˇz nastal jev A, které berou v u ´vahu i v´ ysledek pokusu. Jsou to aposteriorn´ı pravdˇepodobnosti. Pˇ r´ıklad 3.12 Ilustrace vzorc˚ u 3.6 a 3.7 ´ an´ ´ ı je organizovano ´ Havarovalo malé letadlo a patr podle tˇr´ı oblast´ı. Pravdˇepodobnost, zˇe letadlo ´ ı v dané oblasti, je: se nachaz´ Oblast Hory (H1 ) Buˇs (H2 ) Moˇre (H3 )

Apriorn´ı pravdˇepodobnost, zˇ e letadlo je zde 0.50 0.30 0.20

Pravdˇepodobnost pˇrehlédnut´ı ˚ pˇri pruzkumu oblasti 0.30 0.20 0.90

V posledn´ım sloupci je uvedena pravdˇepodobnost, zˇe letadlo nebude nalezeno, pˇrestoˇze se v dané ´ ı. oblasti nachaz´ ´ a ) Urˇcete uplnou pravdˇepodobnost, zˇ e letadlo nebude nalezeno? ˚ Pruzkum byl proveden ve vˇsech tˇrech oblastech a letadlo nebylo nalezeno. ´ ı v horach? ´ b ) Jaka´ je nyn´ı pravdˇepodobnost, zˇe letadlo se pˇresto nachaz´ ˇ sen´ı: Oznaˇcme A jev, zˇe letadlo nebude nalezeno. Jevy H1 , H2 a H3 tvoˇr´ı upln ´ ˚ Reˇ y´ systém jevu. ´ ˚ A ∩ H1 , A ∩ H2 a A ∩ H3 a tud´ızˇ a ) Jev A je sjednocen´ım nesluˇcitelnych jevu P (A) =

3 X

P (A ∩ Hi ).

i=1

Pravdˇepodobnost, zˇe letadlo nebude nalezeno, dostaneme dosazen´ım do vzorce 3.6 P (A) =

3 X

P (Hi )P (A|Hi ) = 0.30 · 0.50 + 0.30 · 0.20 + 0.20 · 0.90 = 0.39.

i=1

´ ı v horach ´ ˚ b ) Pravdˇepodobnost P (H1 |A), zˇ e se letadlo nachaz´ i kdyˇz po pruzkumu vˇsech tˇr´ı oblast´ı nebylo nalezeno, dostaneme dosazen´ım do vzorce 3.7. P (H1 |A) =

3.5

P (H1 )P (A|H1 ) 0.50 · 0.30 = = 0.38. P (A) 0.39

Jin´ e pohledy na pravdˇ epodobnost

V odstavci 3.1 a 3.3 jsme uvedli interpretaci pravdˇepodobnosti pomoc´ı relativn´ıch ˇcetnost´ı, klasickou definici pravdˇepodobnosti a nakonec axiomatickou definici. Subjektivn´ı pravdˇ epodobnost je pokusem o ˇreˇsen´ı jedineˇcn´ ych historick´ ych jev˚ u, které se nemohou opakovat, a tud´ıˇz pro nˇe nelze pouˇz´ıt interpretace ˇcetnostn´ı (napˇr. pravdˇepodobnost svrˇzen´ı urˇcité vlády pˇr´ıˇst´ı mˇes´ıc, nebo zdvojnásoben´ı pr˚ umˇerného obratu na burze v pˇr´ıˇst´ım desetilet´ı). Takové jevy se povaˇzuj´ı za pravdˇepodobné“ nebo nepravdˇepo” ” dobné“, pˇresto, ˇze neexistuje zp˚ usob, jak tyto jevy pozorovat pomoc´ı relativn´ıch ˇcetnost´ı. Nicménˇe jejich pravdˇepodobnost silnˇe ovlivˇ nuje politická rozhodnut´ı a pro jejich závaˇznost je tˇreba je nˇejak´ ym zp˚ usobem odhadovat. Teprve pak lze ˇcinit rozumná rozhodnut´ı a uváˇzit, zda dané riziko stoj´ı za to.

43

Kapitola 4 N´ ahodn´ a veliˇ cina Dosud jsme se zab´ yvali v podstatˇe jen otázkou, zda uvaˇzované náhodné jevy nastanou nebo nenastanou. V mnoha pˇr´ıpadech je vˇsak takov´ y kvalitativn´ı v´ yrok nepostaˇcuj´ıc´ı, a je nutné i kvantitativn´ı vyˇsetˇren´ı. Jin´ ymi slovy, k popisu hromadn´ ych náhodn´ ych jev˚ u budeme obecnˇe potˇrebovat také ˇc´ıselné u ´daje; pˇritom tyto ˇc´ıselné u ´daje nejsou konstantn´ı, ale vykazuj´ı náhodné v´ ychylky. Takovou náhodnou ˇc´ıselnou hodnotou je napˇr´ıklad poˇcet aut, které vlastn´ı náhodnˇe vybraná praˇzská domácnost, zrovna tak jako mnoˇzstv´ı spotˇrebované elektˇriny za mˇes´ıc ve vybrané domácnosti. Obˇe tyto veliˇciny jsou numerické a jejich hodnota závis´ı na tom, která domácnost byla vybraná. M˚ uˇzeme ˇr´ıci, ˇze v´ ysledek náhodného pokusu, dan´ y reáln´ ym ˇc´ıslem, je hodnotou veliˇciny, kterou nazveme n´ ahodn´ a veliˇ cina. Jinak ˇreˇceno, náhodná veliˇcina je veliˇcina, jej´ıˇz hodnota je jednoznaˇcnˇe urˇcena v´ ysledkem náhodného pokusu. Rozliˇsujeme dva základn´ı typy náhodn´ ych veliˇcin: diskrétn´ı a spojité. Diskr´ etn´ı (ˇcili nespojit´ a) náhodná veliˇcina m˚ uˇze nab´ yvat pouze koneˇcnˇe nebo spoˇcetnˇe nekoneˇcnˇe mnoha hodnot. Poˇcet aut, které vlastn´ı domácnost, je pˇr´ıklad diskrétn´ı veliˇciny. Spojit´ a náhodná veliˇcina m˚ uˇze nab´ yvat vˇsech hodnot z nˇejakého koneˇcného nebo nekoneˇcného intervalu. Mnoˇzstv´ı elektˇriny spotˇrebované za mˇes´ıc je pˇr´ıklad spojité náhodné veliˇciny.

4.1

N´ ahodn´ a veliˇ cina a jej´ı rozdˇ elen´ı

Nyn´ı uvedeme matematickou definici náhodné veliˇciny. Definice 4.1

´ ´ VELI CINA ˇ N AHODN A

Nahodn a´ veliˇcina je kaˇ zdé zobrazen´ı X : Ω → R takové, ˇze pro kaˇzdé x ∈ R je ´

A = {ω|X(ω) ≤ x} ∈ A. Jestliˇze A je systém vˇsech podmnoˇzin Ω, pak kaˇzdá reálná funkce X definovaná na Ω je náhodná veliˇcina. Náhodné veliˇciny budeme oznaˇcovat velk´ ymi p´ısmeny z konce abecedy, napˇr. X, Y, Z nebo X1 , X2 , · · · . Jejich konkrétn´ı hodnoty pak mal´ ymi p´ısmeny x, y, z nebo x1 , x2 , · · · . Poˇcet ˇclen˚ u domácnosti v souboru praˇzsk´ ych domácnost´ı je náhodná veliˇcina napˇr. X, zat´ımco v urˇcité náhodnˇe vybrané tˇreba ˇctyˇrˇclenné domácnosti jde uˇz o konkrétn´ı hodnotu této náhodné veliˇciny, o konkrétn´ı poˇcet ˇclen˚ u této domácnosti, tud´ıˇz X = 4. Oznaˇcen´ı [X = 4] 44

´ ´ VELI Cˇ INA A JEJÍ ROZD Eˇ LENÍ 4.1 N AHODN A

bude vyjadˇrovat jev, ˇze vybraná domácnost má 4 ˇcleny, zat´ımco oznaˇcen´ı P (X = 4) je zjednoduˇsené oznaˇcen´ı pro pravdˇepodobnost tohoto jevu. Náhodnou veliˇcinu povaˇzujeme za danou, známe-li vˇsechny jej´ı moˇzné hodnoty a pravdˇepodobnosti v´ yskytu kaˇzdé z nich. Pravidlo, které kaˇzdé hodnotˇe nebo mnoˇzinˇe hodnot z kaˇzdého intervalu pˇriˇrazuje pravdˇepodobnost, ˇze náhodná veliˇcina nabude této hodnoty nebo hodnoty z urˇcitého intervalu, se naz´ yvá z´ akon rozdˇ elen´ı n´ ahodn´ e veliˇ ciny nebo krátce rozdˇ elen´ı n´ ahodn´ e veliˇ ciny.

4.1.1

Distribuˇ cn´ı funkce a hustota

Základn´ı formou popisu zákona rozdˇelen´ı je distribuˇcn´ı funkce. Distribuˇ cn´ı funkce náhodné veliˇciny udává pravdˇepodobnost, ˇze náhodná veliˇcina X nabude hodnoty menˇs´ı nebo rovné neˇz zvolené x. Znaˇc´ıme ji F (x). Definice 4.2

ˇ Í FUNKCE D ISTRIBU CN

Distribuˇcn´ı funkce n´ ahodné veliˇciny X je funkce F : R → h0, 1i definovaná vztahem

F (x) = P (X ≤ x).

Z´ akladn´ı vlastnosti distribuˇ cn´ıch funkc´ı 1. F (x) je neklesaj´ıc´ı funkce, tj. pro kaˇzdou dvojici x1 < x2 plat´ı F (x1 ) ≤ F (x2 ). 2. F (x) je zprava spojitá, tj. pro libovolnou distribuˇcn´ı funkci plat´ı lim F (x + h) = F (x).

h→0+

3. Pro kaˇzdou distribuˇcn´ı funkci plat´ı lim F (x) = 0 a

x→−∞

lim F (x) = 1,

x→∞

zkrácenˇe F (−∞) = 0 a F (∞) = 1. Jestliˇze moˇzné hodnoty náhodné veliˇciny X patˇr´ı do intervalu (a, b) pak F (a) = 0, F (b) = 1. Kaˇzdou funkci, která má vˇsechny vlastnosti 1.–3. m˚ uˇzeme pokládat za distribuˇcn´ı funkci. Pozn´ amka: Definujeme-li distribuˇcn´ı funkci vztahem F (x) = P (X < x) (tj. vynecháme znaménko (=)), pak F je zleva spojitá. ˇ Casto se pouˇz´ıvá i dalˇs´ı vlastnost distribuˇcn´ıch funkc´ı: necht’ x1 < x2 , potom plat´ı P (x1 < X ≤ x2 ) = P ([X ≤ x2 ] ∩ [X > x1 ]) = P ([X ≤ x2 ]) − P ([X ≤ x1 ]) = F (x2 ) − F (x1 ). 45

K APITOLA 4

´ ´ VELI Cˇ INA N AHODN A

Distribuˇcn´ı funkce nemus´ı b´ yt spojitá, ale bod˚ u nespojitosti m˚ uˇze m´ıt nanejv´ yˇs spoˇcetnˇe mnoho. Dva nejd˚ uleˇzitˇejˇs´ı typy distribuˇcn´ıch funkc´ı, které maj´ı nejvˇetˇs´ı uplatnˇen´ı v matematické statistice, jsou diskrétn´ı distribuˇcn´ı funkce a absolutnˇe spojité distribuˇcn´ı funkce. Diskr´ etn´ı distribuˇ cn´ı funkce Distribuˇcn´ı funkce F (x) se naz´ yvá diskr´ etn´ı, existuje-li koneˇcná nebo spoˇcetná posloupnost P bod˚ u {xn } a posloupnost nezáporn´ ych ˇc´ısel {pn } splˇ nuj´ıc´ıch podm´ınku n pn = 1 taková, ˇze X

F (x) =

pn , pro x ∈ R.

(4.1)

{n:xn ≤x}

Diskrétn´ı distribuˇcn´ı funkce má schodovit´ y tvar se skoky velikosti pn v bodech xn . Má-li náhodná veliˇcina X diskrétn´ı distribuˇcn´ı funkci (4.1), tj. pn = P (X = xn ), ˇr´ıkáme, ˇze X má diskr´ etn´ı rozdˇ elen´ı pravdˇ epodobnost´ı, struˇcnˇe diskr´ etn´ı rozdˇ elen´ı. Grafu diskrétn´ı distribuˇcn´ı funkce odpov´ıdá v popisné statistice graf kumulativn´ıch ˇcetnost´ı. Diskrétn´ı zákon rozdˇelen´ı lze vedle distribuˇcn´ı funkce popsat i tzv. pravdˇ epodobnostn´ı funkc´ı P (x) = P (X = x), (4.2) která kaˇzdému x pˇriˇrazuje jeho pravdˇepodobnost P (x). Tyto pravdˇepodobnosti P (x) splˇ nuj´ı P podm´ınku x P (x) = 1. Pomoc´ı pravdˇepodobnostn´ı funkce P (x) m˚ uˇzeme stanovit s pouˇzit´ım pravidla o sˇc´ıtán´ı pravdˇepodobnost´ı pro nesluˇcitelné jevy pravdˇepodobnost, ˇze náhodná veliˇcina nabude hodnoty z intervalu hx1 , x2 i. Tato pravdˇepodobnost je rovna souˇctu pravdˇepodobnost´ı hodnot z tohoto intervalu P (x1 ≤ X ≤ x2 ) =

x2 X

P (x).

(4.3)

x=x1

Specifikace diskrétn´ıho rozdˇelen´ı náhodné veliˇciny X pomoc´ı pravdˇepodobnost´ı P (x) a pomoc´ı distribuˇcn´ı funkce je rovnocenná. Ze znám´ ych pravdˇepodobnost´ı P (x) je moˇzno odvodit distribuˇcn´ı funkci F (x) a naopak, jak vypl´ yvá z definice 4.2. Pravdˇepodobnostn´ı funkci odpov´ıdaj´ı v popisné statistice relativn´ı ˇcetnosti. Pˇ r´ıklad 4.1 Diskrétn´ı náhodn´ a veliˇcina, distribuˇcn´ı funkce ´ ıme-li tˇrikrat ´ po sobˇe minc´ı, dostaneme osm stejnˇe moˇzných vysledk ´ ˚ jak ukazuje nasleduj´ ´ Haz´ u ıc´ı tabulka 4.1 Tabulka 4.1 Moˇzné výsledky pˇri tˇrech hodech minc´ı Pokus Moˇzné výsledky ω

LLL

LLR

´ ´ jednou minc´ı Hazen´ ı 3krat LRL RLL LRR RRL RLR

RRR

´ a´ celkovy´ poˇcet l´ıcu˚ pˇri tˇrech hodech jednou minc´ı. Pak X je nahodn ´ Necht’ X udav a´ veliˇcina, ˚ ze nabyvat ´ ktera´ muˇ hodnot 0, 1, 2 a 3. ´ rete pomoc´ı nahodn´ ´ ´ e dva l´ıce. Urˇcete P (X = 2), tj. a ) Vyjadˇ e veliˇciny jev, zˇe padly pravˇ ´ e dva l´ıce. pravdˇepodobnost, zˇe padnou pravˇ ´ b ) Najdˇete rozdˇelen´ı nahodn´ e veliˇciny X. ´ rete pomoc´ı nahodn´ ´ ´ se dva l´ıce. Vypoˇc´ıtejte P (X ≤ 2), tj. c ) Vyjadˇ e veliˇciny jev, zˇe padnou nejvyˇ pravdˇepodobnost, zˇe padnou nejvýsˇ e dva l´ıce. ´ d ) Urˇcete distribuˇcn´ı funkci nahodn´ e veliˇciny X.

46

´ ´ VELI Cˇ INA A JEJÍ ROZD Eˇ LENÍ 4.1 N AHODN A ´ rete pomoc´ı nahodn´ ´ ˚ které padnou, je nejvy´ sˇ e roven tˇrem e ) Vyjadˇ e veliˇciny jev, zˇe poˇcet l´ıcu, a vˇetˇs´ı neˇz jedna. Vypoˇc´ıtejte P (1 < X ≤ 3). ˇ sen´ı: Reˇ ´ e dva l´ıce lze vyjadˇ ´ rit [X = 2]. P (X = 2) je pravdˇepodobnost, zˇe padnou a ) Jev, zˇe padnou pravˇ ´ e dva l´ıce. Z tabulky 4.1 vid´ıme, zˇe jsou tˇri zpusoby ˚ pravˇ jak dostat celkovˇe dva l´ıce a zˇe je ´ ˚ Tud´ızˇ podle klasického pravidla vy´ poˇctu pravdˇepodobnost´ı celkem osm moˇzných vysledk u. dostaneme 3 P (X = 2) = = 0.375. 8 ´ ´ ˚ b ) Zbývaj´ıc´ı pravdˇepodobnosti pro X jsou vypoˇc´ıtany stejnym zpusobem a jsou uvedeny ´ v nasleduj´ ıc´ı tabulce 4.2. Tabulka 4.2 Rozdˇelen´ı veliˇciny X ud´ avaj´ıc´ı poˇcet l´ıc˚ u pˇri tˇrech hodech minc´ı. Poˇcet l´ıcu˚ x Pravdˇepodobnost P (X = x)

0 0.125

1 0.375

2 0.375

3 0.125

´ se dva l´ıce lze vyjadˇ ´ rit jako c ) Jev [X ≤ 2], zˇe padnou nejvyˇ [X ≤ 2] = ([X = 0] ∪ [X = 1] ∪ [X = 2]). ´ Protoˇze tˇri jevy na pravé stranˇe rovnice jsou vzajemnˇ e nesluˇcitelné, dostaneme aplikac´ı ´ ı pravdˇepodobnost´ı a z tabulky 4.2 pravidla pro sˇc´ıtan´ P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = 0.125 + 0.375 + 0.375 = 0.875 Tud´ızˇ pravdˇepodobnost, zˇe padnou nejvýsˇ e dva l´ıce je rovna 0.875. d ) Distribuˇcn´ı funkci F (x) vypoˇcteme podle vzorce F (x) =

x X

P (X = n) pro x = 0, 1, 2, 3.

n=0

´ Hodnoty F (x) jsou uvedeny v tabulce 4.3. a jej´ı graf na obrazku 4.1 Tabulka 4.3 Distribuˇcn´ı funkce rozdˇelen´ı poˇctu l´ıc˚ u pˇri 3 hodech minc´ı Poˇcet l´ıcu˚ x Distribuˇcn´ı funfce F (x)

0 0.125

1 0.500

2 0.875

3 1.000

Obr´ azek 4.1 Graf distribuˇcn´ı funkce 1.000 0.875

F (x)

Distribuˇcn´ı funkce ma´ schodovitý tvar se skoky velikosti 0.375 v bodech x = 1 a x = 2 a se skoky velikosti 0.125 v bodech x = 0 a x = 3.

0.500 0.125

0

1

2

3

x

47

K APITOLA 4


˚ ze byt ´ vyjadˇ ´ ren jako e ) Jev, zˇe padnou nejvýsˇ e tˇri l´ıce a v´ıce neˇz 1 l´ıc muˇ [1 < X ≤ 3] = ([X ≤ 3] ∩ [X > 1]) = ([X ≤ 3] − [X ≤ 1]). Protoˇze, plat´ı [X ≤ 1] ⊂ [X ≤ 3] pouˇzijeme vlastnost 2. pravdˇepodobnosti (viz kapitola 3) k výpoˇctu P (1 < X ≤ 3): P (1 < X ≤ 3) = P (X ≤ 3) − P (X ≤ 1) = 1.000 − 0.500 = 0.500. ´ se tˇri l´ıce a v´ıce neˇz jeden l´ıc je rovna 0.5. Tud´ızˇ pravdˇepodopbnost, zˇe padnou nejvyˇ

Absolutnˇ e spojit´ a distribuˇ cn´ı funkce Zvláˇstn´ı pozornost zasluhuj´ı distribuˇcn´ı funkce, které jsou nejen spojité, ale dokonce absolutnˇe spojité. Distribuˇcn´ı funkce F se naz´ yvá absolutnˇ e spojit´ a, jestliˇze existuje nezáporná funkce f (x) taková, ˇze plat´ı F (x) =

Z x −∞

f (u) du

pro kaˇzdé x ∈ R.

(4.4)

Funkce f (x) se naz´ yvá hustota rozdˇ elen´ı pravdˇ epodobnost´ı, definovaného distribuˇcn´ı funkc´ı F (x), struˇcnˇe hustota pravdˇepodobnosti nebo jen hustota. Má-li náhodná veliˇcina X absolutnˇe spojitou distribuˇcn´ı funkci, ˇr´ıkáme, ˇze má spojit´ e rozdˇ elen´ı pravdˇ epodobnost´ı, zkrácenˇe spojit´ e rozdˇ elen´ı. Hustota f (x) splˇ nuje rovnost Z ∞

−∞

f (x) dx = 1.

(4.5)

Existuje-li derivace F 0 distribuˇcn´ı funkce v bodˇe x, je F 0 (x) = f (x). Tato hustota pravdˇepodobnosti je definována jako F (x + ∆x) − F (x) P (x < X ≤ x + ∆x) = lim , ∆x→0 ∆x→0 ∆x ∆x

f (x) = lim

tj. jako limita pravdˇepodobnosti, ˇze veliˇcina X padne do velmi malého intervalu (x, x + ∆x), vydˇelená délkou tohoto intervalu v pˇr´ıpadˇe, ˇze se tato délka ∆x bl´ıˇz´ı nule. Souˇcin ∆xf (x) pak pˇribliˇznˇe vyjadˇruje pravdˇepodobnost, ˇze náhodná veliˇcina X padne do velmi malého intervalu (x, x + ∆x), a to t´ım pˇresnˇeji, ˇc´ım je ∆x menˇs´ı. Pro a, b ∈ R, a < b plat´ı P (a < X ≤ b) =

Z b a

f (x) dx = F (b) − F (a).

Pravdˇepodobnost je tedy plocha pod kˇrivkou hustoty. Odtud plyne, ˇze pro náhodnou veliˇcinu se spojit´ ym rozdˇelen´ım je P (X = a) = 0 pro libovolné a ∈ R. Pˇ r´ıklad 4.2 Distribuˇcn´ı funkce a hustota pravdˇepodobnosti spojitého rozdˇelen´ı ˇ ´ Funkce F (x) = 1 − e−λx pro x > 0 a F (x) = 0 pro x ≤ 0, kde λ > 0 je konstanta, splnuje zakladn´ ı ´ vlastnosti 1. – 3. distribuˇcn´ı funkce a je distribuˇcn´ı funkc´ı nˇejaké nahodn´ e veliˇciny X se spojity´ m rozdˇelen´ım. Odpov´ıdaj´ıc´ı hustota je f (x) = λe−λx pro x > 0 a f (x) = 0 pro x ≤ 0. P (1 < X ≤ 2) = R2 λ 1 e−λx dx = 1 − e−2λ − 1 + e−λ = e−λ (1 − e−λ ).

48

´ ´ VELI Cˇ INA A JEJÍ ROZD Eˇ LENÍ 4.1 N AHODN A

4.1.2

V´ıcerozmˇ ern´ a rozdˇ elen´ı pravdˇ epodobnost´ı

ˇ Casto se neomezujeme pouze na jednu náhodnou veliˇcinu, ale zkoumáme cel´ y systém náhodn´ ych veliˇcin, tak zvanou v´ıcerozmˇernou pˇresnˇeji n-rozmˇernou náhodnou veliˇcinu. V´ıcerozmˇ ernou n´ ahodnou veliˇ cinou X = (X1 , X2 , · · · , Xn ) budeme naz´ yvat n-rozmˇern´ y vektor, jehoˇz vˇsechny sloˇzky Xi jsou náhodné veliˇciny. Pro v´ıcerozmˇernou náhodnou veliˇcinu se také pouˇz´ıvá název n´ ahodn´ y vektor. Nadále budeme podle potˇreby pouˇz´ıvat obou názv˚ u. Vˇsimneme si podrobnˇeji dvourozmˇerné náhodné veliˇciny (X, Y ). Zákon rozdˇelen´ı této náhodné veliˇciny m˚ uˇze b´ yt dán ve formˇe sdruˇ zen´ e (simult´ ann´ı) distribuˇ cn´ı funkce F (x, y), která je definovaná jako pravdˇepodobnost, ˇze náhodná veliˇcina X, nabude hodnoty menˇs´ı neˇz x a souˇcasnˇe náhodná veliˇcina Y nabude hodnoty menˇs´ı neˇz y. Definice 4.3

ˇ A´ DISTRIBU CN ˇ Í FUNKCE S DRU ZEN

´ ´ N AHODN EHO VEKTORU

(X, Y )

Sdruˇzena´ distribuˇcn´ı funkce n´ ahodného vektoru (X, Y ) je funkce definovaná vztahem

F (x, y) = P (X ≤ x, Y ≤ y) pro kaˇzdé x ∈ R, y ∈ R. Z´ akladn´ı vlastnosti distribuˇ cn´ı funkce F (x, y) 1. F (x, y) je neklesaj´ıc´ı v kaˇzdé své promˇenné. 2. limx,y→∞ F (x, y) = 1. 3. limx→−∞ F (x, y) = 0, limy→−∞ F (x, y) = 0. 4. F (x, y) je zprava spojitá v kaˇzdé promˇenné. Kromˇe tˇechto triviáln´ıch vlastnost´ı má kaˇzdá dvourozmˇerná distribuˇcn´ı funkce jednu dalˇs´ı charakterizuj´ıc´ı vlastnost, kterou je moˇzné vyjádˇrit ve tvaru P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) = F (x1 , y1 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x2 , y2 ) pro kaˇzdé x1 < x2 , y1 < y2 . Sdruˇzená distribuˇcn´ı funkce F (x, y) se naz´ yvá diskr´ etn´ı, jestliˇze F (x, y) =

X X

P (X = xi , Y = yj ),

(4.6)

xi ≤x yj ≤y

kde {xi } respektive {yj } jsou koneˇcné nebo spoˇcetné posloupnosti vˇsech hodnot, kter´ ych nab´ yvá X respektive Y . Pravdˇepodobnosti P (X = xi , Y = yj ) se naz´ yvaj´ı sdruˇ zen´ e pravdˇ epodobnosti a plat´ı XX P (X = xi , Y = yj ) = 1. xi

yj

Náhodn´ y vektor (X, Y ) s diskrétn´ı distribuˇcn´ı funkc´ı má diskr´ etn´ı sdruˇ zen´ e rozdˇ elen´ı (diskrétn´ı rozdˇelen´ı). Souˇcty sdruˇzen´ ych pravdˇepodobnost´ı PX (xi ) =

X

P (X = xi , Y = yj ) resp. PY (yj ) =

yj

X xi

49

P (X = xi , Y = yj )

K APITOLA 4


se naz´ yvaj´ı margin´ aln´ı pravdˇ epodobnosti náhodné veliˇciny X respektive Y a vyjadˇruj´ı pravdˇepodobnosti r˚ uzn´ ych hodnot jedné z veliˇcin bez ohledu na hodnotu veliˇciny druhé. Zákon rozdˇelen´ı, kter´ y popisuj´ı, se naz´ yvá margin´ aln´ı z´ akon rozdˇ elen´ı. Omez´ıme-li se na dvˇe diskrétn´ı náhodné veliˇciny X a Y , m˚ uˇzeme pravdˇepodobnosti souˇcasného v´ yskytu r˚ uzn´ ych kombinac´ı dvojic hodnot (xi , yj ), i = 1, 2, · · · , r, j = 1, 2, · · · , s obou veliˇcin uspoˇrádat do dvourozmˇerné kombinaˇ cn´ı tabulky 4.4. Tabulka 4.4 Kombinaˇcn´ı tabulka X \Y x1 · xi · xr PY (yj )

y1 ··· P (x1 , y1 ) · · ·

yj ··· P (x1 , yj ) · · ·

ys PX (xi ) P (x1 , ys ) PX (x1 )

P (xi , y1 ) · · ·

P (xi , yj ) · · ·

P (xi , ys )

P (xr , y1 ) · · · PY (y1 ) ···

P (xr , yj ) · · · PY (yj ) ···

P (xr , ys ) PX (xr ) PY (ys ) 1

PX (xi )

Distribuˇcn´ı funkce F (x, y) se naz´ yvá absolutnˇ e spojit´ a, jestliˇze existuje nezáporná funkce f (x, y) naz´ yvaná sdruˇ zen´ a hustota pravdˇ epodobnosti taková, ˇze F (x, y) =

Z x Z y −∞

−∞

f (u, v) dudv.

(4.7)

Hustota sdruˇzeného rozdˇelen´ı má tyto základn´ı vlastnosti: 1. 2.

Z ∞ Z ∞ −∞

−∞

f (x, y) dx dy = 1.

∂ 2 F (x, y) = f (x, y) pokud derivace funkce F existuje. ∂x∂y

3. P (x1 < X ≤ x2 , y1 < Y ≤ y2 ) =

Z x2 Z y2 x1

y1

f (x, y) dx dy

pro x1 < x2 , y1 < y2 .

Náhodn´ y vektor (X, Y ) s absolutnˇe spojitou distribuˇcn´ı funkc´ı má spojit´ e sdruˇ zen´ e rozdˇ elen´ı. Z distribuˇcn´ı funkce F (x, y) m˚ uˇzeme odvodit margin´ aln´ı distribuˇ cn´ı funkce náhodné veliˇciny X respektive Y FX (x) = P (X ≤ x) = lim F (x, y), resp. FY (y) = P (Y ≤ y) = lim F (x, y). y→∞

x→∞

(4.8)

Podobnˇe z hustoty pravdˇepodobnosti f (x, y) m˚ uˇzeme odvodit margin´ aln´ı hustoty rozdˇ elen´ı pravdˇ epodobnost´ı náhodné veliˇciny X respektive Y fX (x) =

4.1.3

Z ∞ −∞

f (x, y) dy, resp. fY (y) =

Z ∞ −∞

f (x, y) dx.

(4.9)

Nez´ avislost n´ ahodn´ ych veliˇ cin

Budeme ˇr´ıkat, ˇze náhodné veliˇciny X a Y jsou nez´ avisl´ e, jestliˇze pro vˇsechna x,y ∈ R plat´ı P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y), 50

´ ´ ˇ IN 4.2 C HARAKTERISTIKY N AHODN YCH VELI C

tj. jestliˇze se dvourozmˇerná distribuˇcn´ı funkce náhodn´ ych veliˇcin X a Y rovná souˇcinu distribuˇcn´ıch funkc´ı náhodné veliˇciny X a náhodné veliˇciny Y. Pro diskrétn´ı rozdˇelen´ı to znamená totéˇz jako P (X = xi , Y = yj ) = PX (xi )PY (yj ),

i = 1, 2, · · · , r,

j = 1, 2, · · · , s

a pro rozdˇelen´ı s hustotou f (x, y) f (x, y) = fX (x)fY (y) pro vˇsechna x, y ∈ R. Nezávislost v´ıce náhodn´ ych veliˇcin je moˇzno definovat obdobnˇe. Náhodné veliˇciny X1 , X2 , · · · , Xn jsou nez´ avisl´ e, jestliˇze pro kaˇzdou n-tici x1 , x2 , · · · , xn reáln´ ych ˇc´ısel plat´ı P (X1 ≤ x1 , · · · , Xn ≤ xn ) =

n Y

P (Xi ≤ xi ).

i=1

Pro nezávislé náhodné veliˇciny plat´ı: 1. Jestliˇze X1 , X2 , · · · , Xn jsou nezávislé náhodné veliˇciny, a hk (x), k = 1, 2, · · · , n funkce reálné promˇenné, pak náhodné veliˇciny Yk = hk (X), k = 1, 2, · · · , n jsou také nezávislé. 2. Jestliˇze náhodné veliˇciny X1 , X2 , · · · , Xn jsou nezávislé, a kaˇzdá z nich má hustotu, pak plat´ı f (x1 , · · · , xn ) =

n Y

fi (xi ),

(4.10)

i=1

kde fi (xi ) je hustota náhodné veliˇciny Xi , i = 1, 2, · · · , n a f (x1 , · · · , xn ) je hustota nrozmˇerné náhodné veliˇciny (X1 , X2 , · · · , Xn ). Ze vztahu (4.10) plyne naopak nezávislost náhodn´ ych veliˇcin X1 , X2 , · · · , Xn .

4.2

Charakteristiky n´ ahodn´ ych veliˇ cin

Distribuˇcn´ı funkce podává o náhodné veliˇcinˇe u ´plnou informaci. Známe-li tuto funkci, v´ıme jak´ ych hodnot m˚ uˇze uvaˇzovaná náhodná veliˇcina nab´ yvat a jaké jsou pravdˇepodobnosti jednotliv´ ych hodnot. V praxi ˇcasto potˇrebujeme koncentrovanˇejˇs´ı a pˇrehlednˇejˇs´ı vyjádˇren´ı této informace. K tomu pouˇz´ıváme podobnˇe jako v popisné statistice, ˇc´ıselné hodnoty, které naz´ yváme charakteristiky n´ ahodn´ ych veliˇ cin. Nejˇcastˇeji pouˇz´ıvan´ ymi charakteristikami jsou stˇredn´ı hodnota, která popisuje polohu (´ uroveˇ n) náhodné veliˇciny, a rozptyl kter´ y popisuje variabilitu (rozpt´ ylenost) náhodné veliˇciny. Struˇcnˇe se zm´ın´ıme i o dalˇs´ıch charakteristikách.

4.2.1

Stˇ redn´ı hodnota

Necht’ X je náhodná veliˇcina s distribuˇcn´ı funkc´ı F (x). Pak máme následuj´ıc´ı definice stˇredn´ı hodnoty náhodné veliˇciny X s diskrétn´ım respektive spojit´ ym rozdˇelen´ım. Budeme ji znaˇcit E(X). 51

K APITOLA 4

Definice 4.4


ˇ Í HODNOTA N AHODN ´ ´ VELI CINY ˇ S T REDN E

Stˇredn´ı hodnota nahodn e´ veliˇciny X s diskretn´ ym pravdˇepodobnostn´ı ´ ´ ım rozdˇelen´ım dan´

funkc´ı P (x) je definována vztahem E(X) =

X

xP (x).

x

Stˇredn´ı hodnota nahodn e´ veliˇciny se spojitym ana ´ ´ rozdˇelen´ım s hustotou f (x) je definov´

vztahem

Z ∞

E(X) =

−∞

xf (x) dx.

V diskrétn´ım pˇr´ıpadˇe jde v podstatˇe o jak´ ysi váˇzen´ y pr˚ umˇer moˇzn´ ych hodnot veliˇciny X s vahami odpov´ıdaj´ıc´ımi jednotliv´ ym pravdˇepodobnostem. Ve spojitém pˇr´ıpadˇe je stˇredn´ı hodnota náhodné veliˇciny X definována obdobnˇe (souˇcet je nahrazen integrálem). Pozn´ amka: V dalˇs´ım textu budeme oznaˇcovat stˇredn´ı hodnotu náhodné veliˇciny X také symbolem µx . Stˇredn´ı hodnota se nˇekdy naz´ yvá prvn´ı obecn´ y moment. Obecnˇe, k-t´ y obecn´ y moment E(X k ) náhodné veliˇciny X je definován jako  X  xk P (x)     x

E(X k ) =  Z    

∞

−∞

pro diskrétn´ı rozdˇelen´ı

xk f (x) dx pro spojité rozdˇelen´ı.

Pro práci se stˇredn´ımi hodnotami jsou d˚ uleˇzité nˇekteré jej´ı matematické vlastnosti, které uvedeme. Z´ akladn´ı vlastnosti stˇ redn´ı hodnoty 1. Stˇredn´ı hodnota konstanty je rovna konstantˇe: E(c) = c. 2. Stˇredn´ı hodnota souˇcinu konstanty a náhodné veliˇciny je rovna souˇcinu této konstanty a stˇredn´ı hodnoty dané veliˇciny, E(cX) = cE(X). 3. Stˇredn´ı hodnota souˇctu n náhodn´ ych veliˇcin je rovna souˇctu jejich stˇredn´ıch hodnot: n X

E(

Xi ) =

i=1

n X

E(Xi ).

i=1

Pojem stˇredn´ı hodnoty zobecn´ıme na nˇejakou funkci h(X) náhodné veliˇciny X E(h(X)) =

X

h(xj )P (xj ),

resp.

j

52

E(h(X)) =

Z ∞ −∞

h(x)f (x) dx.


4.2.2

Rozptyl

Rozptyl je m´ırou variability náhodné veliˇciny. Definice 4.5

´ ´ VELI CINY ˇ ROZPTYL N AHODN E

Rozptyl nahodn e´ veliˇciny s diskretn´ epodobnostn´ı funkc´ı P (x) je ´ ´ ım rozdˇelen´ım s pravdˇ

definován vztahem D(X) =

X

(x − E(X))2 P (x).

x

Rozptyl nahodn e´ veliˇciny se spojitym an vztahem ´ ´ rozdˇelen´ım s hustotou f (x) je definov´

D(X) =

Z ∞ −∞

(x − E(X))2 f (x) dx.

Rozptyl se také naz´ yvá druh´ y centráln´ı moment. Obecnˇe, k-t´ y centr´ aln´ı moment E(X − µx )k náhodné veliˇciny X je definován jako  X  (x − µx )k P (x)     x

E((X − µx )k ) =  Z    

∞

−∞


(x − µx )k f (x) dx pro spojité rozdˇelen´ı.

Rozptyl lze poˇc´ıtat podle vzorce D(X) = E(X − E(X))2 = E(X 2 − 2XE(X) + (E(X))2 ) = E(X 2 ) − [E(X)]2 .

(4.11)

Pozn´ amka: V dalˇs´ım textu budeme oznaˇcovat rozptyl náhodné veliˇciny X také symbolem σx2 . Mˇerné jednotky, ve kter´ ych je vyjádˇren rozptyl D(X) jsou ˇctverce jednotek náhodné veliˇciny X. V p˚ uvodn´ıch jednotkách mˇeˇr´ı variabilitu odmocnina rozptylu, kterou naz´ yváme q smˇ erodatnou odchylkou a znaˇc´ıme σx = D(X). Z´ akladn´ı vlastnosti rozptylu 1. Rozptyl konstanty je rovna nule, D(c) = 0. 2. Rozptyl souˇcinu konstanty a náhodné veliˇciny je roven souˇcinu ˇctverce této konstanty a rozptylu dané veliˇciny, D(cX) = c2 D(X). avislých náhodn´ ych veliˇcin je roven souˇctu rozptyl˚ u tˇechto 3. Rozptyl souˇctu nez´ náhodn´ ych veliˇcin, n X

D(

Xi ) =

i=1

4.2.3

n X

D(Xi ).

i=1

Kvantily

Vedle uveden´ ych charakteristik náhodné veliˇciny se pˇri popisu spojité náhodné veliˇciny velmi ˇcasto pouˇz´ıvaj´ı kvantily. S t´ımto pojmem jsme se jiˇz seznámili v popisné statistice v ˇca´sti 2.3.1. Nyn´ı tuto charakteristiku uvedeme do souvislosti se spojitou náhodnou veliˇcinou. 53

K APITOLA 4

Definice 4.6


K VANTIL

Necht’ X je náhodná veliˇcina s distribuˇcn´ı funkc´ı F (x) a hustotou pravdˇepodobnosti f (x). p-kvantilem nahodn e´ veliˇciny X nebo 100p procentn´ım kvantilem je ˇ c´ıslo Qp , pro které ´ plat´ı Z P (X ≤ Qp ) = F (Qp ) =

Qp

−∞

f (x) dx = p, 0 < p < 1.

50% kvantil naz´ yváme medi´ an. Medián Q0.5 náhodné veliˇciny je jednoznaˇcnˇe urˇcen podm´ınkou F (Q0.5 ) = 12 . Pˇ r´ıklad 4.3 Stˇredn´ı hodnota a rozptyl diskrétn´ıho rozdˇelen´ı ´ Urˇcete E(X) a D(X) nahodn´ e veliˇciny, ktera´ naby´ va´ hodnot z mnoˇziny {0, 1} s pravdˇepodobnostn´ı funkc´ı P (X = 1) = p, P (X = 0) = 1 − p, 0 < p < 1. ˇ sen´ı: E(X) = 1p + 0(1 − p) = p a D(X) = (1 − p)2 p + (0 − p)2 (1 − p) = p(1 − p) Reˇ

Pˇ r´ıklad 4.4 Stˇredn´ı hodnota, rozptyl a medi´ an spojitého rozdˇelen´ı ´ ´ této Uvaˇzujme nahodnou veliˇcinu z pˇr´ıkladu 4.2. Urˇcete stˇredn´ı hodnotu, rozptyl a median veliˇciny. ˇ sen´ı: K vypoˇ Reˇ Z ∞´ ctu pouˇzijeme gama funkci : Γ(a) = xa−1 e−x dx, a > 0, Γ(a + 1) = aΓ(a), Γ(1) = 1. 0Z Z ∞ 1 ∞ −u Γ(2) 1 E (X ) = λ xe−λx dx = ue du = = . λ λ λ 0 0 ´ Rozptyl vypoˇc´ıtame pomoc´ı vzorce (4.11), tud´ızˇ mus´ıme spoˇc´ıtat E (X 2 ). Z ∞ Z 1 ∞ 2 −u Γ(3) 2 2 2 −λx E (X ) = λ x e dx = 2 u e du = 2 = 2 . D(X ) = λ22 − ( λ1 )2 = λ12 . λ λ λ 0 0 ´ Q0.5 se nalezne rˇeˇsen´ım rovnice 1 − e−λQ0.5 = 0.5, z n´ızˇ dostaneme Q0.5 = λ1 ln 2. Median

4.2.4

Kovariance a korelace

Kovariance a korelaˇcn´ı koeficient (koeficient korelace) patˇr´ı mezi nejˇcastˇeji pouˇz´ıvané charakteristiky sdruˇzeného rozdˇelen´ı dvou náhodn´ ych veliˇcin. Kovariance je stˇredn´ı hodnota souˇcinu odchylek obou náhodn´ ych veliˇcin X a Y od jejich stˇredn´ıch hodnot. Definice 4.7

KOVARIANCE

Kovariance σxy dvou n´ ahodn´ ych veliˇcin X a Y se stˇredn´ımi hodnotami µx a µy je defi-

nována vztahem σxy = E(X − µx )(Y − µy ). K v´ ypoˇctu kovariance veliˇcin X a Y lze pouˇz´ıt stˇredn´ı hodnotu E(XY ) naz´ yvanou sm´ıˇ sen´ y obecn´ y moment a definovou vztahem :  X  xyP (X = x, Y = y)     x,y

E(XY ) =  Z    

∞

Z ∞

−∞

−∞


xyf (x, y) dxdy pro spojitá rozdˇelen´ı. 54

(4.12)


Z definice 4.7 a z (4.12) plyne, ˇze σxy = E(XY ) − µx µy .

(4.13)

Z definice nezávisl´ ych náhodn´ ych veliˇcin a ze vztahu (4.12) plyne, ˇze pro nezávislé náhodné veliˇciny plat´ı E(XY ) = E(X)E(Y ). Kovariance dvou nezávisl´ ych náhodn´ ych veliˇcin je tud´ıˇz rovna nule. Pomoc´ı kovariance m˚ uˇzeme v´ yjádˇrit rozptyl souˇctu dvou náhodn´ ych veliˇcin X a Y . Je roven souˇctu rozptyl˚ u obou náhodn´ ych veliˇcin a dvojnásobku kovariance obou veliˇcin. D(X + Y ) = E(X + Y − µx − µy )2 = E(X − µx )2 + E(Y − µy )2 + 2E(X − µx )(Y − µy ) = D(X) + D(Y ) + 2σxy . (4.14) Korelaˇcn´ı koeficient dává urˇcitou informaci o stupni závislosti dvou náhodn´ ych veliˇcin. Je definován jako pomˇer kovariance k souˇcinu smˇerodatn´ ych odchylek obou náhodn´ ych veliˇcin. Definice 4.8

ˇ Í KOEFICIENT KORELA CN

Korelaˇcn´ı koeficient ρxy dvou n´ ahodn´ ych veliˇcin X a Y s rozptyly σx2 > 0 a σy2 > 0 je

definován vztahem

ρxy =

σxy . σx σy

Je-li σx2 = 0 nebo σy2 = 0 pokládáme ρxy = 0. Pro korelaˇcn´ı koeficient plat´ı: 1. Hodnota korelaˇcn´ıho koeficientu je ˇc´ıslo z intervalu h−1, 1i, tj. −1 ≤ ρxy ≤ 1. 2. Jsou-li X a Y nezávislé, je ρxy = 0. Pozn´ amka: Opaˇcné tvrzen´ı neplat´ı. Ze vztahu ρxy = 0 obecnˇe nevypl´ yvá, ˇze veliˇciny X a Y jsou nezávislé. Je-li ρxy = 0, ˇr´ıkáme, ˇze náhodné veliˇciny X a Y jsou nekorelovan´ e. 3. |ρxy | = 1 právˇe tehdy, kdyˇz s pravdˇepodobnost´ı 1 plat´ı Y = a + bX, kde a, b, b 6= 0 jsou reálné konstanty. Pˇritom je ρxy = 1 nebo −1 podle toho, je-li b > 0 nebo b < 0. S interpretac´ı a v´ ypoˇctem korelaˇcn´ıho koeficientu se podrobnˇeji seznám´ıme v kapitole o regresi a korelaci.

4.2.5

Vektor stˇ redn´ıch hodnot, kovarianˇ cn´ı matice

Z charakteristik n-rozmˇerného náhodného vektoru X = (X1 , X2 , · · · , Xn ) jsou nejd˚ uleˇzitˇejˇs´ı stˇredn´ı hodnoty jednotliv´ ych veliˇcin Xi µi = E(Xi ), i = 1, 2, · · · , n, dále jejich rozptyly σi2 = D(Xi ), i = 1, 2, · · · , n a koneˇcnˇe kovariance dvojic veliˇcin σij = E(Xi − µi )(Xj − µj ), i = 1, 2, · · · , n; i 6= j. 55

K APITOLA 4


Stˇredn´ı hodnoty zapisujeme ˇcasto ve formˇe vektoru stˇ redn´ıch hodnot µ = (µ1 , µ2 , · · · , µn )T a kovariance spolu s rozptyly ve formˇe kovarianˇ cn´ı matice 



σ12 . . . σ1n  . . . . ..  Σ= .   .. . 2 σn1 . . . σn Kovarianˇcn´ı matice je symetrická a positivnˇe definitn´ı.

4.3

Nˇ ekter´ a rozdˇ elen´ı pravdˇ epodobnost´ı

Rozdˇelen´ı jednorozmˇern´ ych i v´ıcerozmˇern´ ych náhodn´ ych veliˇcin se pouˇz´ıvaj´ı jako pravdˇepodobnostn´ı modely pˇri popisu konkrétn´ıch praktick´ ych problém˚ u. V této ˇca´sti se seznám´ıme s nejˇcastˇeji pouˇz´ıvan´ ymi pravdˇepodobnostn´ımi rozdˇelen´ımi.

4.3.1

Diskr´ etn´ı rozdˇ elen´ı

Alternativn´ı rozdˇ elen´ı A(p) Rozdˇelen´ı pravdˇepodobnost´ı na Ω = {0, 1} s pravdˇepodobnostn´ı funkc´ı P (x) = px (1 − p)1−x ,

(4.15)

kde p ∈ (0, 1) se nazýv´ a alternativn´ı rozdˇelen´ı s parametrem p. Stˇredn´ı hodnota tohoto rozdˇelen´ı je E(X) = p a rozptyl D(X) = p(1 − p). Interpretace: Uvaˇzujme náhodn´ y pokus. Nastane-li sledovan´ y náhodn´ y jev A, nabude náhodná veliˇcina X hodnoty x = 1, nenastane-li tento jev A, nabude náhodná veliˇcina X hodnoty x = 0. Náhodná veliˇcina X tedy vyjadˇruje, kolikrát jev A v pokusu nastane. Binomick´ e rozdˇ elen´ı B(n, p) Rozdˇelen´ı pravdˇepodobnost´ı na Ω = {0, 1, ..., n} s pravdˇepodobnostn´ı funkc´ı Ã

P (x) =

n x

!

px (1 − p)n−x

(4.16)

pro p ∈ (0, 1) a n ∈ N+ se nazýv´ a binomické rozdˇelen´ı s parametry n a p. Stˇredn´ı hodnota je E(X) = np a rozptyl D(X) = np(1 − p). Binomické rozdˇelen´ı je obecnˇe nesymetrické. S r˚ ustem n (n → ∞) nebo pˇribliˇzován´ım p k hodnotˇe 0.5 se stává postupnˇe symetriˇctˇejˇs´ım. Pro p = 0.5 je symetrické. Pro n = 1 dostaneme A(p)-rozdˇelen´ı. Interpretace: Pˇredpokládejme, ˇze provád´ıme n nezávisl´ ych pokus˚ u, pˇri nichˇz m˚ uˇze nastat jev A s pravdˇepodobnost´ı p a nenastat s pravdˇepodobnost´ı q = 1 − p. Pravdˇepodobnost, ˇze se v takové sérii pokus˚ u objev´ı jev A právˇe x-krát, je dána v´ yrazem (4.16). 56

4.3 N Eˇ KTER A´ ROZD Eˇ LENÍ PRAVD Eˇ PODOBNOSTÍ

Pravdˇepodobnosti jednotliv´ ych hodnot náhodné veliˇciny s binomick´ ym rozdˇelen´ım jsou obecn´ ym ˇclenem binomického rozvoje n

(p + q) =

n X

Ã

x=1

n x

!

px (1 − p)n−x .

Hypergeometrick´ e rozdˇ elen´ı Hg(N, M, n) Rozdˇelen´ı pravdˇepodobnost´ı s Ω = {0, 1, ..., min{M, n}} a pravdˇepodobnostn´ı funkc´ı Ã

P (x) =

M x

!Ã Ã

N −M n−x

N n

!

!

, max(n − N + M, 0) ≤ x ≤ min(M, n)

(4.17)

se nazýv´ a hypergeometrické rozdˇelen´ı s parametry N, M, ³n. ´³ ´ M M N −n , a rozptyl D(X) = n 1 − . Stˇredn´ı hodnota je E(X) = n M N N N N −1 Interpretace: Uvaˇzujme situaci, kdy v souboru N prvk˚ u je jich M (N ≥ M ) s urˇcitou vlastnost´ı a zbyl´ ych N − M tuto vlastnost nemá. Postupnˇe vybereme ze souboru n prvk˚ u, z nichˇz ˇzádn´ y nevrac´ıme zpˇet. Poˇcet prvk˚ u se sledovanou vlastnost´ı mezi n vybran´ ymi prvky je náhodná veliˇcina X maj´ıc´ı hypergeometrické rozdˇelen´ı. Jestliˇze N je velké a n a M se nemˇen´ı, bl´ıˇz´ı se hypergeometrické rozdˇelen´ı binomickému. To N znamená, ˇze m˚ uˇzeme pro velká N zanedbat rozd´ıl mezi v´ ybˇerem bez vracen´ı a s vracen´ım. Prakticky postupujeme tak, ˇze vypoˇc´ıtáme pomˇer Nn a je-li tento pomˇer vˇetˇs´ı neˇz 0.05, lze hypergeometrické rozdˇelen´ı nahradit rozdˇelen´ım binomick´ ym s parametry n a M . N Aplikace: Hypergeometrické rozdˇelen´ı se vyskytuje napˇr´ıklad ve statistické kontrole jakosti v pˇr´ıpadech, kdy zkoumáme jakost malého poˇctu v´ yrobk˚ u nebo kdyˇz kontrola má charakter destrukˇcn´ı zkouˇsky, tj. v´ yrobek je pˇri zkouˇsce zniˇcen. Dále jako pravdˇepodobnostn´ı model nˇekter´ ych her jako Sportky. Geometrick´ e rozdˇ elen´ı G(p) Rozdˇelen´ı pravdˇepodobnost´ı na N+ s pravdˇepodobnostn´ı funkc´ı P (x) = p(1 − p)x−1 = pq x−1

(4.18)

pro p ∈ (0, 1) se nazýv´ a geometrické rozdˇelen´ı s parametrem p. Stˇredn´ı hodnotu vypoˇc´ıtáme: E(X) =

∞ X x=1

xpq

x−1

=p

∞ X x=1

xq

x−1

=p

∞ X dq x x=1

∞ d X p p 1 d 1 =p = = 2 = . qx = p 2 dq dq x=0 dq 1 − q (1 − q) p p

Rozptyl tohoto rozdˇelen´ı je D(X) = 1−p . Medián leˇz´ı mezi 0 a 1 pro p < 0.5 a je roven nule p pro p ≥ 0.5. Interpretace: Provádˇejme pokus se dvˇema moˇzn´ ymi v´ ysledky, které nazveme u ´spˇech“ ” a ne´ uspˇech“. Pravdˇepodobnost u ´spˇechu necht’ je p. Poˇcet nezávisl´ ych opakován´ı pokus˚ u ” do prvn´ıho u ´spˇechu je náhodná veliˇcina, která má geometrické rozdˇelen´ı. P (x) udává pravdˇepodobnost, ˇze prvn´ıch (x − 1) pokus˚ u bude ne´ uspˇeˇsn´ ych a ˇze k u ´spˇechu dojde teprve v x-tém pokusu. 57

K APITOLA 4


Pˇ r´ıklad 4.5 Geometrické rozdˇelen´ı ´ ´ ıme vybˇ ´ er s vracen´ım. Necht’ X znaˇc´ı nahodnou Mezi N výrobky je M vadných. Provad´ ´ ´ veliˇcinu, zˇe prvn´ıch x výrobku˚ bude dobrych a v (x + 1)-n´ım tahu jsme vytahli vadny´ ´ ´ vyrobek. Pak ma´ nahodn a´ veliˇcina X geometrické rozdˇelen´ı s parametrem p = M N.

Poissonovo rozdˇ elen´ı P(λ) Rozdˇelen´ı pravdˇepodobnost´ı na N s pravdˇepodobnostn´ı funkc´ı λx , x! kde λ > 0 je konstanta, se nazýv´ a Poissonovo rozdˇelen´ı s parametrem λ. p(x) = e−λ

(4.19)

Stˇredn´ı hodnotu vypoˇc´ıtáme následuj´ıc´ım zp˚ usobem: E(X) =

∞ X x=0

−λ λ

xe

x

x!

= λe

−λ

Ã

∞ X

∞ λx−1 d X λx x = λe−λ dx x=1 x! x=1 (x − 1)!

!

= λe−λ

d λ e = λe−λ eλ = λ. dx

Podobnˇe odvod´ıme, ˇze E(X 2 ) = λ + λ2 a tud´ıˇz rozptyl D(X) = E(X) − (E(X))2 = λ. Jestliˇze je poˇcet pokus˚ u n dosti velk´ y (prakticky staˇc´ı n > 30) a p → 0 (prakticky p ≤ 0.01), pak lze binomické rozdˇelen´ı aproximovat Poissonov´ ym rozdˇelen´ım s parametrem λ = np. Aplikace: Toto rozdˇelen´ı pravdˇepodobnost´ı se ˇcasto uˇz´ıvá k modelován´ı ˇcetnost´ı s jakou urˇcitá událost nastane bˇehem urˇcitého ˇcasového u ´seku. Na pˇr´ıklad poˇcet telefonn´ıch volán´ı v urˇcitém ˇcasovém intervalu, poˇcet zákazn´ık˚ u obslouˇzen´ ych za jednotku ˇcasu u pokladny v obchodˇe, poˇcet poruch nˇejakého zaˇr´ızen´ı za ˇcasovou jednotku, poˇcet vad na v´ yrobku. Pˇ r´ıklad 4.6 Poissonovo rozdˇelen´ı ´ ´ ˚ doˇslych ´ ´ rednu v jedné malé Pˇredpokladejte, zˇe poˇcet telefonickych hovoru bˇehem 1 hodiny na ustˇ firmˇe, ma´ Poissonovo rozdˇelen´ı s parametrem λ = 5.2. Vypoˇc´ıtejte pravdˇepodobnost, zˇe bˇehem ´ rednu a ) pravˇ ´ e dva hovory; b ) nejvyˇ ´ se sˇ est a nejménˇe 3 hovory; jedné hodiny pˇrijdou na ustˇ ˇ jeden hovor. d ) Jaký je prumˇ ˚ erny´ poˇcet hovoru ˚ za jednu hodinu? c ) aspon ˇ sen´ı: Reˇ 2 a ) Protoˇze λ = 5.2 je podle (4.19) P (X = 2) = e−5.2 (5.2) = 0.0746. 2! b ) P (4 < X ≤ 6) = P (X ≤ 6) − P (X ≤ 4) = 0.7323 − 0.4060 = 0.3263. c ) P (X ≥ 1) = 1 − P (X = 0) = 1 − e−5.2 = 0.994. ˚ erny´ poˇcet hovoru ˚ za jednu hodinu je roven stˇredn´ı hodnotˇe Poissonova rozdˇelen´ı s parad ) Prumˇ metrem λ = 5.2, tud´ızˇ je roven 5.2.

Diskr´ etn´ı rovnomˇ ern´ e rozdˇ elen´ı DU(m) Rozdˇelen´ı pravdˇepodobnost´ı na Nm , kde m ∈ N+ , s pravdˇepodobnostn´ı funkc´ı 1 , m se nazýv´ a diskrétn´ı rovnomˇerné rozdˇelen´ı nebo DU(m)-rozdˇelen´ı. Distribuˇcn´ı funkce    0 pro x < 1 x pro 1 ≤ x < m F (x) = m   1 pro x ≥ m. p(x) =

, rozptyl D(X) = Stˇredn´ı hodnota E(X) = m+1 2 a Q0.5 = [ m+1 ] pro m sud´ e . 2 58

m2 −1 , 12

(4.20)

medián Q0.5 = [ m2 ] + 1 pro m liché


4.3.2

Spojit´ a rozdˇ elen´ı

V dalˇs´ım v´ ykladu se zamˇeˇr´ıme na nˇekterá spojitá rozdˇelen´ı. Rovnomˇ ern´ e rozdˇ elen´ı U(a, b) Rovnomˇerné rozdˇelen´ı na re´ alném intervalu (a, b) m´ a hustotu (

f (x) =

0 1 b−a

pro x < a a pro b < x pro a < x < b.

(4.21)

Pro pˇr´ısluˇsnou distribuˇcn´ı funkci plat´ı    0

F (x) =  

pro x < a pro a ≤ x < b pro x ≥ b.

x−a b−a

1

(4.22)

Základn´ı charakteristiky U(a, b)-rozdˇelen´ı jsou stˇredn´ı hodnota E(X) = 1 D(X) = 12 (b − a)2 a medián Q0.5 = b+a . 2

a+b , 2

rozptyl

Obr´ azek 4.2 Hustota a distribuˇcn´ı funkce U(a, b)-rozdˇelen´ı f (x)

F (x) 1

1 b−a

0

a

b

x

a

0

b (b) distribuˇcn´ı funkce

(a) hustota

x

Interpretace: Rovnomˇern´ ym rozdˇelen´ım se ˇr´ıd´ı takové náhodné veliˇciny, které maj´ı stejnou moˇznost nab´ yt kterékoliv hodnoty z nˇejakého intervalu. Jsou to napˇr. chyby pˇri zaokrouhlován´ı ˇc´ısel, chyby pˇri odeˇc´ıtán´ı u ´daj˚ u z lineárn´ıch stupnic mˇeˇr´ıc´ıch pˇr´ıstroj˚ u, doby ˇcekán´ı na uskuteˇcnˇen´ı jevu opakuj´ıc´ıho se v pravideln´ ych ˇcasov´ ych intervalech. Pˇ r´ıklad 4.7 Rovnomˇerné rozdˇelen´ı ´ m´ıstem vy´ robn´ı linky prochaz´ ´ ı kaˇzdých 5 minut polotovar. Pracovn´ık technické kontroly Urˇcitym ´ za den jeden polotovar, aby ho vyzkouˇsel. Pravdˇepodobnost pˇr´ıchodu praodeb´ıra´ nˇekolikrat ´ Jaka´ je pravdˇepodobnost, zˇe bude cˇ ekat na covn´ıka k lince je pro kaˇzdý cˇ asovy´ okamˇzik stejna. polotovar nejvy´ sˇ e jednu minutu? ˇ sen´ı: Poˇzadovanou pravdˇepodobnost udav ´ a´ distribuˇcn´ı funkce (4.22), pˇriˇcemˇz a = 0, b = 5. Reˇ P (X ≤ 1) = F (1) = 15 .

Normovan´ e norm´ aln´ı rozdˇ elen´ı N (0, 1) Rozdˇelen´ı pravdˇepodobnost´ı na R s hustotou µ

¶

1 1 ϕ(z) = √ exp − z 2 , 2 2π 59

(4.23)

K APITOLA 4


se nazýv´ a normované normáln´ı (Gaussovo) rozdˇelen´ı nebo N (0, 1)-rozdˇelen´ı. Náhodná veliˇcina s N (0, 1)-rozdˇelen´ım se naz´ yvá normovaná normáln´ı náhodná veliˇcina. Hustota N (0, 1)-rozdˇelen´ı má tvar zvonovité kˇrivky a naz´ yvá se normovaná normáln´ı (Gaussova, gaussovsk´ a) kˇrivka. Z´ akladn´ı vlastnosti N (0, 1)-rozdˇ elen´ı 1. Plat´ı limz→±∞ ϕ(z) = 0. To znamená, ˇze pro z → ±∞ se normovaná normáln´ı kˇrivka asymptoticky pˇribliˇzuje k nule. 2. Hustota ϕ(z) je sudá funkce: ϕ(−z) = ϕ(z). Tud´ıˇz normovaná normáln´ı kˇrivka je symetrická kolem 0. Hustota N (0, 1)-rozdˇelen´ı nab´ yvá svého maxima pro z = 0. 3. E(Z) = 0, D(Z) = 1, Q0.5 = 0. Stˇredn´ı hodnota tohoto rozdˇelen´ı charakterizuj´ıc´ı polohu rozdˇelen´ı je rovna nule, a rozptyl charakterizuj´ıc´ı rozpt´ ylen´ı hodnot kolem nuly je roven jedné. 4. P (−3 < Z ≤ 3) ≈ 0.997. To znamená, ˇze vˇetˇsina plochy pod normovanou normáln´ı kˇrivkou leˇz´ı mezi −3 a +3. Distribuˇcn´ı funkce N (0, 1)-rozdˇelen´ı se obvykle znaˇc´ı Φ Φ(z) =

Z z −∞

ϕ(u) du,

z∈R

(4.24)

a b´ yvá tabelována pouze pro hodnoty z > 0. Protoˇze vˇsak hustota ϕ je sudá, plat´ı Φ(−z) = 1 − Φ(z).

(4.25)

Obr´ azek 4.3 Hustota a distribuˇcn´ı funkce N (0, 1)-rozdˇelen´ı f (x)

F (x) 1

√1 2π

1 2

x

0

-3

(a) hustota

-2

-1

0

1

2

3

x

(b) distribuˇcn´ı funkce

Zároveˇ n lze dokázat, ˇze pro kvantily Qp normovaného normáln´ıho rozdˇelen´ı plat´ı: Qp = −Q1−p

(4.26)

Symbolem zα budeme znaˇcit hodnotu pro kterou plat´ı: α=

Z ∞ zα

ϕ(z) dz.

60

(4.27)


Norm´ aln´ı rozdˇ elen´ı N (µ, σ 2 ) Rozdˇelen´ı pravdˇepodobnost´ı na R se nazýv´ a normáln´ı (Gaussovo) rozdˇelen´ı se stˇredn´ı hod2 2 notou µ a rozptylem σ nebo N (µ, σ )-rozdˇelen´ı, jestliˇze má hustotu Ã

!

1 (x − µ)2 √ f (x) = exp − , 2σ 2 2πσ

µ ∈ R, σ 2 ∈ R+ .

(4.28)

Normáln´ı rozdˇelen´ı má tvar zvonovité kˇrivky, která nab´ yvá maxima v bodˇe x = µ a pˇri n → ±∞ se pˇribliˇzuje k ose x. V´ ypoˇcet distribuˇcn´ı funkce tohoto rozdˇelen´ı je obt´ıˇzn´ y. Proto transformujeme náhodnou veliˇcinu X na normovanou norm´ aln´ı veliˇ cinu Z, kde Z=

X −µ . σ

(4.29)

Veliˇcina Z má pak N (0, 1)-rozdˇelen´ı. Distribuˇcn´ı funkci F (x) lze vyjádˇrit pomoc´ı distribuˇcn´ı funkce N (0, 1)-rozdˇelen´ı µ ¶ x−µ F (x) = Φ . σ Obr´ azek 4.4 Hustota a distribuˇcn´ı funkce N (µ, σ 2 )-rozdˇelen´ı f (x)

F (x) 1

√ 1 2πσ 2

1 2

0

µ

x

0

(a) hustota

µ

x


Empirick´ e pravidlo pro norm´ alnˇ e rozdˇ elen´ e n´ ahodn´ e veliˇ ciny Pro kaˇzdou normálnˇe rozdˇelenou náhodnou veliˇcinu X plat´ı: (a) P (µ − σ < X < µ + σ) = 0.6826, (b) P (µ − 2σ < X < µ + 2σ) = 0.9544, (c) P (µ − 3σ < X < µ + 3σ) = 0.9974. Tyto vlastnosti jsou graficky znázornˇeny na obr. 4.5. Obr´ azek 4.5 Empirická pravidla pro normálnˇe rozdˇelenou n´ ahodnou veliˇcinu 0.9544

0.6826 µ−σ

µ

µ+σ

µ − 2σ

µ

0.9974 µ + 2σ

µ − 3σ

µ

µ + 3σ

Aplikace: Normáln´ı rozdˇelen´ı má v teorii pravdˇepodobnosti mimoˇrádn´ y v´ yznam. Slouˇz´ı jako pravdˇepodobnostn´ı model chován´ı velkého mnoˇzstv´ı náhodn´ ych jev˚ u v technice, pˇr´ırodn´ıch 61

K APITOLA 4


vˇedách a v ekonomii. Mnoho náhodn´ ych veliˇcin vyskytuj´ıc´ıch se v praktick´ ych aplikac´ıch má alespoˇ n pˇribliˇznˇe normáln´ı rozdˇelen´ı. Normáln´ı rozdˇelen´ı b´ yvá nˇekdy naz´ yváno zákonem ” chyb“. Pˇri opakovaném mˇeˇren´ı téˇze veliˇciny za stejn´ ych podm´ınek zp˚ usobuj´ı náhodné vlivy odchylky od skuteˇcné hodnoty mˇeˇrené veliˇciny. Tyto náhodné chyby maj´ı ˇcasto normáln´ı rozdˇelen´ı. Velk´ y v´ yznam normáln´ıho rozdˇelen´ı spoˇc´ıvá také v tom, ˇze za urˇcit´ ych podm´ınek lze pomoc´ı nˇej aproximovat ˇradu diskrétn´ıch i spojit´ ych rozdˇelen´ı. Pˇ r´ıklad 4.8 Norm´ aln´ı rozdˇelen´ı ´ ı testu na vysoké sˇ kole ma´ normaln´ ´ ı rozdˇelen´ı se stˇredn´ı hodnotou Doba potˇrebna´ na vypracovan´ 110 minut a smˇerodatnou odchylkou 20 minut. ˚ dokonˇc´ı test do dvou hodin? b ) Jak dlouho by mˇel test trvat, aby ho a ) Kolik procent studentu ´ e 90% studentu? ˚ dokonˇcilo pravˇ ˇ sen´ı: Necht’ X znaˇc´ı dobu potˇrebnou na vypracovan´ ´ ı testu. Pak X ∼ N (110, 400). Reˇ ˚ a ) P (X ≤ 120) = F (120) = Φ( 120−110 ) = Φ( 10 20 20 ) = Φ(0.5) = 0.6915. Pouze 69.15% studentu ´ dokonˇc´ı test do dvou hodin. b ) P (X ≤ t) = F (t) = Φ( t−110 ) = 0.90. V tabulk ach najdeme, 20 zˇe pro z = 1.28 je P (X ≤ 1.28) = 0.90. Tud´ızˇ t−110 = 1.28 a z toho dostaneme t = 135.6. 20 ´ e 90% studentu˚ je 2hodiny a 15 minut. Doba potˇrebna´ k tomu, aby test dokonˇcilo pravˇ

Exponenci´ aln´ı rozdˇ elen´ı E(λ) Rozdˇelen´ı pravdˇepodobnost´ı na R+ se nazýv´ a exponenci´ aln´ı rozdˇelen´ı s parametrem λ > 0 nebo E(λ)-rozdˇelen´ı, jestliˇze má hustotu (

f (x) =

λe−λx pro x > 0 0 pro x ≤ 0.

(4.30)

1 − e−λx pro x > 0 0 pro x ≤ 0.

(4.31)

Distribuˇcn´ı funkce je (

F (x) =

Stˇredn´ı hodnota tohoto rozdˇelen´ı E(X) = 1/λ, rozptyl D(X) = 1/λ2 a medián Q0.5 = ln 2/λ. Obr´ azek 4.6 Hustota a distribuˇcn´ı funkce E(λ)-rozdˇelen´ı f (x)

F (x) 1

λ

λe−λx

x

0

(a) hustota

0

x


Aplikace: Toto rozdˇelen´ı má uplatnˇen´ı v teorii spolehlivosti a v teorii hromadné obsluhy, zejména pˇri v´ ypoˇctu pravdˇepodobnosti ˇzivotnosti v´ yrobk˚ u a zaˇr´ızen´ı. Typick´ y pˇr´ıklad náhodné veliˇciny s E(λ)-rozdˇelen´ım je doba mezi v´ yskytem dvou po sobˇe následuj´ıc´ıch náhodn´ ych jev˚ u. Ve fyzice je hodnota mediánu Q0.5 = 1/λ ln 2 známá jako poloˇcas rozpadu radioaktivn´ıho prvku. 62


Pˇ r´ıklad 4.9 Exponenci´ aln´ı rozdˇelen´ı ˚ erna´ doba cˇ ekan´ ´ ı zakazn´ ´ Prumˇ ıka na obsluhu v urˇcité prodejnˇe je 50 sekund, pˇriˇcemˇz doba ´ ı se rˇ´ıd´ı exponencialn´ ´ ım rozdˇelen´ım. Jaka´ je pravdˇepodobnost, zˇe nahodn´ ´ ´ cˇ ekan´ y zakazn´ ık bude obslouˇzen za dobu ne delˇs´ı neˇz 30 sekund? ˇ sen´ı: Protoˇze λ = 1/50 = 0.02 je P (X ≤ 30) = 1 − e−(0.02).30 = 1 − e−0.6 ≈ 0.451. Reˇ

S normáln´ım rozdˇelen´ım jsou spjata nˇekterá dalˇs´ı d˚ uleˇzitá rozdˇelen´ı, která budeme pouˇz´ıvat v dalˇs´ıch kapitolách. Jejich hustotu zde nebudeme uvádˇet. ch´ı-kvadr´ at rozdˇ elen´ı χ2 (n) Jestliˇze Z1 , Z2 , · · · , Zn je posloupnost nezávisl´ ych náhodn´ ych veliˇcin, z nichˇz kaˇzdá má N (0, 1)-rozdˇelen´ı, pak souˇcet ˇctverc˚ u tˇechto veliˇcin, tj. veliˇcina χ2 =

n X

Zi2 ,

i=1

má ch´ı–kvadr´ at rozdˇ elen´ı s n stupni volnosti. Poˇctem stupˇ n˚ u volnosti se rozum´ı poˇcet nezávisl´ ych sˇc´ıtanc˚ u. Je jedin´ ym parametrem rozdˇelen´ı. Stˇredn´ı hodnota tohoto rozdˇelen´ı je E(χ2 ) = n a rozptyl D(χ2 ) = 2n. Pro r˚ uzné poˇcty stupˇ n˚ u volnosti ν jsou tabelovány hodnoty χ2α , splˇ nuj´ıc´ı vztah P (χ2 > χ2α ) = α, 0 < α < 1. Se vzr˚ ustaj´ıc´ım poˇctem stupˇ n˚ u volnosti se χ2 -rozdˇelen´ı bl´ıˇz´ı normáln´ımu rozdˇelen´ı. Obr´ azek 4.7 Hustota χ2 -rozdˇelen´ı a t-rozdˇelen´ı ν=5 ν = 10 ν = 19

χ2

(a) χ2 -rozdˇelen´ı

(b) t-rozdˇelen´ı

Studentovo t-rozdˇ elen´ı t(n) 2 Jestliˇze Z a χ jsou dvˇe nezávislé náhodné veliˇciny takové, ˇze Z má N (0, 1)-rozdˇelen´ı a χ2 má χ2 (n)-rozdˇelen´ı, pak veliˇcina Z √ T =√ 2 n χ má Studentovo t-rozdˇ elen´ı s n stupni volnosti. Poˇcet stupˇ n˚ u volnosti je jedin´ y parametr tohoto rozdˇelen´ı. Pro n → ∞ se t-rozdˇelen´ı bl´ıˇz´ı normovanému normáln´ımu rozdˇelen´ı. Pˇri praktick´ ych aplikac´ıch pro n > 30 povaˇzujeme rozdˇelen´ı jiˇz za normáln´ı.

63

K APITOLA 4


Z´ akladn´ı vlastnosti t-rozdˇ elen´ı s n stupni volnosti 1. Hustota gn (t) je sudá funkce: gn (t) = gn (−t). 2. Distribuˇcn´ı funkce splˇ nuje podm´ınku Gn (t) = 1 − Gn (−t). 3. Pro kvantily plat´ı Qp (n) = −Q1−p (n), n = 1, 2, · · · , 0 < p < 1. Dvourozmˇ ern´ e norm´ aln´ı rozdˇ elen´ı Náhodn´ y vektor (X, Y ) má dvourozmˇerné normáln´ı rozdˇelen´ı s vektorem stˇredn´ıch hodnot µ, a kovarianˇcn´ı matic´ı Σ Ã

µ = (µx , µy )T ,

Σ=

σx2 σxy σxy σy2

!

,

jestliˇze jeho hustota f (x, y) má tvar f (x, y) =

2πσx σy

1 √

(

1 exp − 2 2(1 − ρ2 ) 1−ρ

Ã

(x − µx )2 (x − µx )(y − µy ) (y − µy )2 − 2ρ + σx2 σx σy σy2

!)

kde (x, y) ∈ R2 , a ρ = σxy /σx σy je korelaˇcn´ı koeficient sloˇzek X a Y náhodného vektoru (X, Y ). Pro |ρ| = 1 nen´ı hustota definována. Jestliˇze ρ = 0, pak veliˇciny X a Y jsou nekorelované, ale v tomto pˇr´ıpadˇe také i nezávislé.

4.4

Nˇ ekter´ e limitn´ı vˇ ety

Limitn´ı vˇety teorie pravdˇepodobnosti se zab´ yvaj´ı chován´ım posloupnost´ı náhodn´ ych veliˇcin. Jsou d˚ uleˇzité pro popis pravdˇepodobnostn´ıch model˚ u v pˇr´ıpadˇe rostouc´ıho poˇctu náhodn´ ych pokus˚ u. V tomto odstavci zformulujeme zákon velk´ ych ˇc´ısel a centráln´ı limitn´ı vˇety jen v jejich nejjednoduˇsˇs´ı podobˇe bez formáln´ıho d˚ ukazu, pouze s ohledem na jejich vˇecn´ y obsah.

4.4.1

Z´ akon velk´ ych ˇ c´ısel

Obecné znˇen´ı zákona velk´ ych ˇc´ısel je moˇzné zformulovat takto: Jestliˇze zvˇetˇsujeme poˇcet nezávisl´ ych pokus˚ u, pˇribliˇzuje se empiricky zjiˇstˇená charakteristika, popisuj´ıc´ı v´ ysledky tˇechto pokus˚ u, charakteristice teoretické. Podm´ınky p˚ usoben´ı tohoto zákona specifikuj´ı ˇ d´ılˇc´ı vˇety, z nichˇz nejd˚ uleˇzitˇejˇs´ı uvedeme. D´ılˇc´ı vˇety se dokazuj´ı pomoc´ı tzv. Cebyˇ sevovy nerovnosti. ˇ Cebyˇ sevova nerovnost. Necht’ X je náhodná veliˇcina se stˇredn´ı hodnotou E(X) a rozptylem D(X). Pak pro kaˇzdé reálné ˇc´ıslo ² > 0 plat´ı D(X) . (4.32) P (| X − E(X) |≥ ²) ≤ ²2 ˇ sevovy nerovnosti Pˇ r´ıklad 4.10 Ilustrace Cebyˇ ´ Necht’ nahodn a´ veliˇcina X ma´ libovolné rozdˇelen´ı se stˇredn´ı hodnotou µ = 2 a rozptylem ´ σ 2 = 1. Urˇcete pravdˇepodobnost, zˇe nahodn a´ veliˇcina nabude hodnoty, ktera´ se bude liˇsit od

64

,

4.4 N Eˇ KTER E´ LIMITNÍ V Eˇ TY µ o ménˇe neˇz ±2. ˇ sen´ı: V tomto pˇr´ıpadˇe je ² = 2. Poˇzadovana´ pravdˇepodobnost je Reˇ P (| X − 2 |< 2) = 1 − P (| X − 2 |≥ 2) ≥ 1 − 1/4 = 0.75.

Pˇristoup´ıme nyn´ı k jedné z d´ılˇc´ıch vˇet zákona velk´ ych ˇc´ısel, a sice k Bernoulliho vˇetˇe. Bernoulliho vˇ eta (Bernoulliho z´ akon velk´ ych ˇ c´ısel). Necht’ X1 , X2 , · · · je posloupnost nezávisl´ ych stejnˇe rozdˇelen´ ych náhodn´ ych veliˇcin s alternativn´ım rozdˇelen´ım A(p). Oznaˇcme P Sn = ni=1 Xi . Pak pro kaˇzdé ² > 0 plat´ı: µ

¶

Sn lim P | − p |> ² = 0. n→∞ n ˇ Bernoulliho vˇeta je jednoduch´ ym d˚ usledkem Cebyˇ sevovy nerovnosti. V´ yraz Sn /n v pˇredchoz´ı vˇetˇe je relativn´ı ˇcetnost jevu A = [Xi = 1] v n nezávisl´ ych opakován´ıch pokusu. Zákon velk´ ych ˇc´ısel potvrzuje, ˇze pro n → ∞ konverguje relativn´ı ˇcetnost ke konstantˇe a sice k pravdˇepodobnosti p jevu A. Pojem konvergence posloupnosti náhodn´ ych veliˇcin lze definovat r˚ uzn´ ym zp˚ usobem, v Bernoulliho vˇetˇe jde o konvergenci podle pravdˇepodobnosti. ˇ Rekneme, ˇze posloupnost X1 , X2 , · · · náhodn´ ych veliˇcin konverguje podle pravdˇ epodobnosti ke konstantˇe c, jestliˇze pro kaˇzdé ² > 0 plat´ı lim P (| Xn − c |> ²) = 0.

n→∞

Bernoulliho vˇetu m˚ uˇzeme nyn´ı pomoc´ı pojmu konvergence podle pravdˇepodobnosti formulovat takto: Relativn´ı ˇcetnost sledovaného jevu v posloupnosti nezávislých pokus˚ u konverguje podle pravdˇepodobnosti k pravdˇepodobnosti sledovaného jevu, roste-li poˇcet pokus˚ u nade vˇsechny meze. Jinak ˇreˇceno, pˇri dostateˇcnˇe velkém poˇctu nezávisl´ ych pokus˚ u velké odchylky relativn´ı ˇcetnosti od pravdˇepodobnosti jsou velmi nepravdˇepodobné. Praktick´ y v´ yznam této vˇety spoˇc´ıvá mimo jiné v moˇznosti experimentálnˇe odhadovat neznámou pravdˇepodobnost pomoc´ı napozorované relativn´ı ˇcetnosti. Pˇ r´ıklad 4.11 Ilustrace Bernoulliho vˇety ´ ´ ´ ˚ pˇri urˇcitém procesu vyroby ´ Z 2500 nezavisle vyrobenych vyrobk u jich bylo 100 vadných. Pod´ıl ´ 100/2500 = 0.04 je bl´ızky´ cˇ´ıslu p, které vyjadˇruje neznamou pravdˇepodobnost vyroben´ı vadného ´ ´ vyrobku pˇri daném procesu vyroby.

Následuj´ıc´ı vˇeta ˇr´ıká, ˇze aritmetick´ y pr˚ umˇer konverguje pro n → ∞ ke stˇredn´ı hodnotˇe. ’ To je zobecnˇen´ı Bernoulliho vˇety, nebot relativn´ı ˇcetnost je pr˚ umˇerem veliˇcin s alternativn´ım rozdˇelen´ım a pravdˇepodobnost jevu A je jejich stˇredn´ı hodnotou. Chinˇ cinova vˇ eta Necht’ X1 , X2 , · · · je posloupnost nezávisl´ ych stejnˇe rozdˇelen´ ych náhodn´ ych veliˇcin se stˇredn´ı hodnotou µ. Pak pro kaˇzdé ² > 0 plat´ı !

Ã

n 1X Xi − µ |> ² = 0. lim P | n→∞ n i=1

65

K APITOLA 4


Podle zákona velk´ ych ˇc´ısel m˚ uˇzeme vypoˇcten´ım relativn´ı ˇcetnosti respektive aritmetického pr˚ umˇeru (pokud se vztahuj´ı k dostateˇcnˇe velkému poˇctu pozorován´ı) z´ıskat velmi pˇresnou informaci o pravdˇepodobnosti nˇejakého jevu respektive o stˇredn´ı hodnotˇe nˇejaké náhodné veliˇciny. Pˇ r´ıklad 4.12 Ilustrace Chinˇcinovy vˇety ˚ erna´ doba zˇivotnosti Necht’ doba Pn zˇivotnosti X urˇcitého vy´ robku ma´ E(λ)-rozdˇelen´ı. Potom prumˇ ´ ´ ´ ´ e doby vyrobenych vy´ robku˚ se jen velmi malo liˇs´ı od neznam´ X = n1 i=1 Xi nezavisle zˇivotnosti 1/λ.

4.4.2

Centr´ aln´ı limitn´ı vˇ ety

Centráln´ı limitn´ı vˇety tvrd´ı, ˇze souˇcty a tedy i pr˚ umˇery velkého poˇctu nezávisl´ ych náhodn´ ych veliˇcin maj´ı za velmi obecn´ ych podm´ınek pˇribliˇznˇe normáln´ı rozdˇelen´ı. Tyto vˇety vysvˇetluj´ı, proˇc se v r˚ uzn´ ych oborech setkáváme tak ˇcasto s normáln´ım nebo pˇribliˇznˇe normáln´ım rozdˇelen´ım. Typick´ ym pˇr´ıkladem jsou nepˇresnosti pˇri mˇeˇren´ı; v´ ysledná chyba mˇeˇren´ı je sloˇzena z mnoha r˚ uzn´ ych mal´ ych chyb. Centráln´ı limitn´ı vˇety nám umoˇzn ˇuj´ı pˇredpokládat, ˇze rozdˇelen´ı chyb mˇeˇren´ı je normáln´ı. Proto se normáln´ımu zákonu rozdˇelen´ı ˇr´ıká zákon chyb. Zm´ınili jsme se o tom jiˇz v odstavci 4.3.2, kde jsme uvádˇeli definici a vlastnosti normáln´ıho rozdˇelen´ı. Pozn´ amka: O náhodn´ ych veliˇcinách, jejichˇz limitn´ım zákonem je normáln´ı rozdˇelen´ı ˇr´ıkáme, ˇze maj´ı asymptoticky norm´ aln´ı rozdˇ elen´ı. Nejjednoduˇsˇs´ı pˇr´ıpad centráln´ı limitn´ı vˇety je tzv. Moivreova-Laplaceova vˇeta, která vyjadˇruje konvergenci binomického rozdˇelen´ı k rozdˇelen´ı normáln´ımu a dává tak moˇznost aproximovat binomické rozdˇelen´ı rozdˇelen´ım normáln´ım. Moivreova-Laplaceova vˇ eta. Necht’ X1 , X2 , · · · je posloupnost nezávisl´ ych stejnˇe rozdˇePn len´ ych náhodn´ y ch veliˇ c in s alternativn´ ım rozdˇ e len´ ım A(p). Poloˇ z me S = n i=1 Xi a Zn = q (Sn − np)/ np(1 − p). Potom plat´ı lim P (Zn ≤ x) = Φ(x), x ∈ R.

n→∞

Pˇ r´ıklad 4.13 Aproximace binomického rozdˇelen´ı normáln´ım rozdˇelen´ım ´ Student se podrob´ı zkouˇsce ve formˇe testu s 10 otazkami, na které odpov´ıda´ ano nebo ne. ´ a´ odpovˇedi na vˇsechny otazky. ´ Student had Uˇzijte binomické rozdˇelen´ı ke stanoven´ı pˇresné ´ ´ e. Pak pouˇzijte aproximaci bipravdˇepodobnosti, zˇe student odpov´ı na 7 nebo 8 otazek spravnˇ ´ ım rozdˇelen´ım. nomického rozdˇelen´ı normaln´ ˇ sen´ı: Necht’ S10 je poˇcet spravn ´ ych ´ ´ ´ a´ odpovˇedi, Reˇ odpovˇed´ı na 10 otazek. Protoˇze student had ´ e odpovˇedi p = 0.5, S10 ∼ B(10, 0.5). Z tabulky binomického rozdˇelen´ı je pravdˇepodobnost spravn´ ´ vy´ poˇctem dostaneme nebo pˇr´ımym P (S10 = 7 ∨ 8) = P (7) + P (8) = 0.1172 + 0.0439 = 0.1611. p (X = 7 ∨ 8 oznaˇcuje vy´ rok X se rovn´ a 7 nebo 8). E(S10 ) = np = 10 · 0.5 = 5 a D(Sn ) = np(1 − p) = ´ ı aproximace provést korekci pro 1.58. Protoˇze n nen´ı pˇr´ıliˇs vysoké, je tˇreba pˇri pouˇzit´ı normaln´

66

4.4 N Eˇ KTER E´ LIMITNÍ V Eˇ TY ´ ´ nahrazen´ı diskrétn´ıho rozdˇelen´ı spojitym, tzv. korekci na spojitost. Ulohu lze totiˇz formulovat jako urˇcen´ı P (6.5 ≤ S10 ≤ 8.5), nebot’ plat´ı P (6.5 ≤ S10 ≤ 8.5) = =

P (S10 ≤ 8.5) − P (S10 < 6.5) = P (S10 ≤ 8) − P (S10 ≤ 6) P (S10 = 8) + P (S10 = 7).

Pouˇzit´ım Moivreova-Laplaceovy vˇety dostaneme ¶ µ 8.5 − 5 6.5 − 5 ≤ Z10 ≤ = P (0.95 ≤ Z10 ≤ 2.22) = Φ(2.22) − Φ(0.95) P 1.58 1.58 = 0.9868 − 0.8289 = 0.1579. ´ ım této hodnoty s hodnotou P (S10 = 7 ∨ 8) vid´ıme, zˇe normaln´ ´ ı aproximace je velice Porovnan´ dobrou aproximac´ı binomického rozdˇelen´ı.

Centráln´ı limitn´ı vˇetu, která je pˇr´ım´ ym zobecnˇen´ım Moivreovy-Laplaceovy vˇety, lze vyslovit takto: Linderbergova-L´ evyho vˇ eta Necht’ X1 , X2 , · · · jsou nezávislé náhodné veliˇciny se stejn´ ym rozdˇelen´ım, které maj´ √ ı Pn 2 koneˇcnou stˇredn´ı hodnotu µ a rozptyl σ . Poloˇzme Yn = i=1 Xi a Zn = (Yn − nµ)/σ n. Potom plat´ı lim P (Zn ≤ x) = Φ(x), x ∈ R. n→∞ Podle této vˇety konverguje distribuˇcn´ı funkce normovan´ ych souˇct˚ u k distribuˇcn´ı funkci N (0, 1)-rozdˇelen´ı pro libovolné v´ ychoz´ı rozdˇelen´ı s koneˇcnou stˇredn´ı hodnotou a koneˇcn´ ym rozptylem. Jinak ˇreˇceno souˇcet a t´ım i pr˚ umˇer n nezávisl´ ych náhodn´ ych veliˇcin, které maj´ı stejné (libovolné) rozdˇelen´ı s koneˇcnou stˇredn´ı hodnotou a koneˇcn´ ym rozptylem má pro dosti velké n pˇribliˇznˇe normáln´ı rozdˇelen´ı. Pˇ r´ıklad 4.14 Ilustrace Linderbergovy-Lévyho vˇety ´ ˚ eru Necht’ P doba zˇivotnosti X urˇcitého vyrobku ma´ E(λ)-rozdˇelen´ı. Potom normovany´ tvar prumˇ n ´ ´ enych ´ ´ ˚ je X = n1 i=1 Xi dob zˇivotnosti X1 , X2 , · · · , Xn nezavisle vyrabˇ vyrobk u Zn =

X − 1/λ √ . 1/λ n

Zn se da´ pro dostateˇcnˇe velké n aproximovat rozdˇelen´ım N (0, 1).

67

Kapitola 5 N´ ahodn´ y v´ ybˇ er V pˇredcházej´ıc´ıch kapitolách jsme se zab´ yvali popisnou statistikou, pravdˇepodobnost´ı, náhodn´ ymi veliˇcinami, nˇekter´ ymi rozdˇelen´ımi pravdˇepodobnost´ı a limitn´ımi vˇetami. Nyn´ı si ukáˇzeme, ˇze tyto zdánlivˇe r˚ uzné pojmy jsou základem inferenˇcn´ı statistiky. Zavedeme pojem náhodn´ y v´ ybˇer z rozdˇelen´ı, kter´ y má v matematické statistice u ´stˇredn´ı postaven´ı a spojuje vˇetˇsinu teoretick´ ych v´ ysledk˚ u s praktick´ ymi situacemi.

5.1

Pojem n´ ahodn´ eho v´ ybˇ eru

Uvaˇzujme náhodn´ y pokus, jehoˇz v´ ysledkem je hodnota x jednorozmˇerné náhodné veliˇciny X, která má distribuˇcn´ı funkci F (x). Opakujeme-li náhodn´ y pokus nezávisle n krát, dostaneme hodnoty x1 , x2 , · · · , xn . Pˇritom xi , i = 1, 2, · · · , n lze povaˇzovat za hodnotu náhodné veliˇciny Xi . Protoˇze n uvaˇzovan´ ych pokus˚ u je n nezávisl´ ych opakován´ı téhoˇz pokusu, jsou náhodné veliˇciny X1 , X2 , · · · , Xn vzájemnˇe nezávislé a vˇsechny maj´ı stejné rozdˇelen´ı, jaké má náhodná veliˇcina X (tj. vˇsechny maj´ı tutéˇz distribuˇcn´ı funkci F (x), jakou má náhodná veliˇcina X). Posloupnost nezávisl´ ych a stejnˇe rozdˇelen´ ych náhodn´ ych veliˇcin X1 , X2 , · · · , Xn naz´ yváme n´ ahodn´ ym v´ ybˇ erem o rozsahu n z rozdˇelen´ı, které má kaˇzdá uvaˇzovaná náhodná veliˇcina X1 , X2 , · · · , Xn (tj. z rozdˇelen´ı maj´ıc´ıho distribuˇcn´ı funkci F (x); m´ısto distribuˇcn´ı funkc´ı F (x) m˚ uˇzeme ovˇsem diskrétn´ı rozdˇelen´ı popsat pravdˇepodobnostmi P (x) a spojitá rozdˇelen´ı hustotou pravdˇepodobnosti f (x)). Náhodn´ y v´ ybˇer budeme znaˇcit X = (X1 , X2 , · · · , Xn ). Posloupnost hodnot x1 , x2 , · · · , xn , které nab´ yvaj´ı náhodné veliˇciny X1 , X2 , · · · , Xn nazveme v´ ybˇ erov´ ymi hodnotami nebo realizac´ı n´ ahodn´ eho v´ ybˇ eru. Mnoˇzina V hodnot, které nab´ yvaj´ı náhodné veliˇciny X1 , X2 , · · · , Xn , se naz´ yvá v´ ybˇ erov´ ym prostorem. V´ ybˇerov´ y prostor V je podmnoˇzinou Rn . Protoˇze náhodné veliˇciny X1 , X2 , · · · , Xn jsou vzájemnˇe nezávislé a maj´ı stejné rozdˇelen´ı, plat´ı pro distribuˇcn´ı funkci H(x) náhodného v´ ybˇeru H(x) = F (x1 )F (x2 )...F (xn ), xi ∈ R. Pˇ r´ıklad 5.1 Distribuˇcn´ı funkce náhodného výbˇeru ´ ´ er ze spojitého rovnomˇerného rozdˇelen´ı na intervalu Necht’ X = (X1 , X2 , · · · , Xn ) je nahodn´ y vybˇ ´ (0,1). Urˇcete distribuˇcn´ı funkci H(x) nahodn´ eho vy´ bˇeru X. ˇ Reˇsen´ı: Xi ∼ U (0, 1) H(x) = H(x1 , x2 , · · · , xn ) = x1 · x2 · · · xn .

68

´ Eˇ ROV E´ CHARAKTERISTIKY 5.2 V YB

Pravdˇepodobnostn´ı funkce q(x) náhodného v´ ybˇeru v pˇr´ıpadˇe diskrétn´ıho rozdˇelen´ı náhodn´ ych veliˇcin X1 , X2 , · · · , Xn je q(x) = P (X1 = x1 , X2 = x2 , · · · , Xn = xn ) = p(x1 )p(x2 ) · · · p(xn ) Pˇ r´ıklad 5.2 Pravdˇepodobnostn´ı funkce náhodného výbˇeru ´ Necht’ X = (X1 , X2 , · · · , Xn ) je nahodn´ y výbˇer z Poissonova rozdˇelen´ı s parametrem λ. Urˇcete pravdˇepodobnostn´ı funkci q(x). ˇ sen´ı: Xi ∼ P(λ), f (xi ) = λxi e−λ , xi = 0, 1 · · · , i = 1, 2, · · · , n Reˇ xi ! Pn 1 q(x) = λ i=1 xi e−nλ . x1 !x2 !...xn !

Hustota rozdˇelen´ı h(x) náhodného v´ ybˇeru z rozdˇelen´ı s hustotou f (x) je h(x) = h(x1 , x2 , · · · , xn ) = f (x1 )f (x2 ) · f (xn ),

xi ∈ R, i = 1, 2, · · · , n.

Pˇ r´ıklad 5.3 Hustota rozdˇelen´ı náhodného výbˇeru ´ ´ ıho rozdˇelen´ı N (µ, σ 2 ). Najdˇete hustotu Necht’ X = (X1 , X2 , · · · , Xn ) je nahodn´ y vy´ bˇer z normaln´ h(x). ˇ sen´ı: Xi ∼ N (µ, σ 2 ) Reˇ h(x) =

n Y i=1

5.2

√

n 1 1 xi − µ 2 1 1 X (xi − µ)2 }, exp{− ( ) }= exp{− 2 σ 2σ 2 i=1 (2π)n/2 σ n 2πσ

xi ∈ R.

V´ ybˇ erov´ e charakteristiky

Jak jiˇz v´ıme, statistick´ y soubor lze popsat pomoc´ı r˚ uzn´ ych popisn´ ych charakteristik. Mezi nejd˚ uleˇzitˇejˇs´ı charakteristiky patˇr´ı aritmetick´ y pr˚ umˇer, rozptyl a relativn´ı ˇcetnost. U spoˇcetn´ ych statistick´ ych soubor˚ u bychom mˇeli sp´ıˇse hovoˇrit o parametrech rozdˇelen´ı sledovaného znaku. K tˇemto charakteristikám a parametr˚ um m˚ uˇzeme naj´ıt ve v´ ybˇerovém souboru pˇr´ısluˇsné protˇejˇsky, tj. v´ ybˇ erov´ e charakteristiky neboli statistiky. Zat´ımco charakteristiky základn´ıho souboru a parametry rozdˇelen´ı sledovaného znaku jsou pevné hodnoty, statistiky se mˇen´ı od jednoho náhodného v´ ybˇeru ke druhému. Z pravdˇepodobnostn´ıho hlediska maj´ı charakter náhodn´ ych veliˇcin, nebot’ jsou vypoˇcteny z hodnot náhodného v´ ybˇeru, které jsou samy hodnotami náhodn´ ych veliˇcin. Tyto náhodné veliˇciny neobsahuj´ı parametry rozdˇelen´ı. Pˇr´ıklady v´ ybˇerov´ ych charakteristik jsou: výbˇerový pr˚ umˇer, výbˇerový rozptyl a výbˇerový pod´ıl.

5.3

Rozdˇ elen´ı v´ ybˇ erov´ ych charakteristik

Chceme-li na základˇe v´ ybˇerové charakteristiky dˇelat závˇery o charakteristice základn´ıho souboru nebo o parametru rozdˇelen´ı, je nutné vˇzdy znát pravdˇepodobnostn´ı rozdˇelen´ı v´ ybˇerové charakteristiky, které se naz´ yvá v´ ybˇ erov´ e rozdˇ elen´ı. V´ ybˇerová rozdˇelen´ı jsou teoretick´ ym základem pro zpracován´ı v´ ysledk˚ u v´ ybˇerov´ ych ˇsetˇren´ı, jejich poznán´ı je rozhoduj´ıc´ım krokem, kter´ y teprve umoˇzn ˇuje aplikovat zákonitosti poˇctu pravdˇepodobnosti na hodnocen´ı kvality u ´sudk˚ u op´ıraj´ıc´ıch se o náhodn´ y v´ ybˇer. 69

K APITOLA 5

´ ´ V YB ´ Eˇ R N AHODN Y

V této ˇcásti uvedeme v´ ybˇerová rozdˇelen´ı statistik, na jejichˇz základˇe budeme v kapitole 6 odhadovat neznámé parametry rozdˇelen´ı pravdˇepodobnost´ı a v kapitole 7 testovat hypotézy o tˇechto parametrech.

5.3.1

Rozdˇ elen´ı v´ ybˇ erov´ eho pr˚ umˇ eru

Je-li (X1 , X2 , · · · , Xn ) náhodn´ y v´ ybˇer o rozsahu n, pak v´ ybˇ erov´ y pr˚ umˇ er (nebo také v´ ybˇerov´ y 1. obecn´ y moment) je statistika definovaná jako X=

n 1X Xi . n i=1

(5.1)

Obecnˇe, v´ ybˇ erov´ y k-t´ y obecn´ y moment je statistika n 1X Mk = Xik . n i=1 0

(5.2)

Necht’ (X1 , X2 , · · · , Xn ) je náhodn´ y v´ ybˇer o rozsahu n z rozdˇelen´ı se stˇredn´ı hodnotou µ 2 a rozptylem σ , pak pro stˇredn´ı hodnotu µx¯ a rozptyl σx2¯ v´ ybˇerového pr˚ umˇeru X plat´ı n n 1X 1X Xi ) = E(Xi ) = µ n i=1 n i=1

(5.3)

n n 1 X 1 1X Xi ) = 2 D(Xi ) = σ 2 . n i=1 n i=1 n

(5.4)

µx¯ = E( σx2¯ = D(

Známe-li rozdˇelen´ı, z nˇehoˇz náhodn´ y v´ ybˇer pocház´ı, m˚ uˇzeme stanovit rozdˇelen´ı v´ ybˇerového pr˚ umˇeru jako rozdˇelen´ı lineárn´ı funkce náhodn´ ych veliˇcin. Je-li napˇr. (X1 , X2 , · · · , Xn ) náhodn´ y v´ ybˇer z N (µ, σ 2 )-rozdˇelen´ı, pak X ∼ N (µ, σ 2 /n). Pokud náhodn´ y v´ ybˇer nepocház´ı z normáln´ıho rozdˇelen´ı, pak z centráln´ı limitn´ı vˇety (viz odst. 4.4.2) vypl´ yvá, ˇze náhodná veliˇcina X má pˇribliˇznˇe normáln´ı rozdˇelen´ı za pˇredpokladu, ˇze rozsah v´ ybˇeru je relativnˇe velk´ y. Vˇseobecnˇe vzato, ˇc´ım v´ıce se rozdˇelen´ı, z nˇehoˇz v´ ybˇer pocház´ı, liˇs´ı od normáln´ıho, t´ım vˇetˇs´ı rozsah v´ ybˇeru potˇrebujeme pro adekvátn´ı aproximaci rozdˇelen´ı v´ ybˇerového pr˚ umˇeru. Na základˇe experimentáln´ıch v´ ysledk˚ u se doporuˇcuje, aby rozsah v´ ybˇeru n byl alespoˇ n 30. Tud´ıˇz máme následuj´ıc´ı poznatek. Tvrzen´ı 5.1

ˇ Í V YB ´ Eˇ ROV E´ HO PR UM ˚ ERU ˇ ROZD ELEN

Pˇredpokládejme, ˇze máme náhodn´ y v´ ybˇer o rozsahu n ≥ 30 z rozdˇelen´ı se stˇredn´ı 2 hodnotou µ, a rozptylem σ . Pak bez ohledu na rozdˇelen´ı, z nˇehoˇz v´ ybˇer pocház´ı, má náhodná veliˇcina X pˇribliˇznˇe normáln´ı rozdˇelen´ı se stˇredn´ı hodnotou µx¯ = µ a rozptylem σx2¯ = σ 2 /n. V kapitolách 6 a 7 budeme pouˇz´ıvat normovan´ y tvar náhodné veliˇciny X, to je veliˇcinu Z=

X − µx¯ X −µ √ , = σx¯ σ/ n

(5.5)

která má v d˚ usledku centráln´ı limitn´ı vˇety rozdˇelen´ı specifikované pˇri r˚ uzn´ ych podm´ınkách v následuj´ıc´ım tvrzen´ı. 70

´ Eˇ ROV YCH ´ 5.3 ROZD Eˇ LENÍ V YB CHARAKTERISTIK

Tvrzen´ı 5.2

ˇ Í NORMOVAN EHO ´ ´ EROV ˇ ´ ˚ ERU ˇ ROZD ELEN TVARU V YB EHO PR UM

Pˇredpokládejme, ˇze máme náhodn´ y v´ ybˇer o rozsahu n z rozdˇelen´ı se stˇredn´ı hodnotou µ a smˇerodatnou odchylkou σ 2 . Pak normovaný tvar výbˇerového pr˚ umˇeru X Z=

X −µ √ σ/ n

1. má bez ohledu na rozsah v´ ybˇeru normované normáln´ı rozdˇelen´ı, pokud v´ ybˇer pocház´ı z normáln´ıho rozdˇelen´ı; 2. má pro n ≥ 30 pˇribliˇznˇe normované normáln´ı rozdˇelen´ı bez ohledu na rozdˇelen´ı, z nˇehoˇz v´ ybˇer pocház´ı.

5.3.2

Rozdˇ elen´ı v´ ybˇ erov´ eho rozptylu

Je-li (X1 , X2 , · · · , Xn ) náhodn´ y v´ ybˇer o rozsahu n, pak v´ ybˇ erov´ y rozptyl je statistika definovaná jako n 1 X S2 = (Xi − X)2 . (5.6) n − 1 i=1 Pozn´ amka : V´ ybˇ erov´ y k-t´ y centr´ aln´ı moment je statistika Mk =

n 1X (Xi − X)k . n i=1

(5.7)

Podobnˇe jako v pˇr´ıpadˇe v´ ybˇerového pr˚ umˇeru, chceme-li z´ıskat informaci o rozptylu rozdˇelen´ı prostˇrednictv´ım v´ ybˇerového rozptylu, mus´ıme znát jeho rozdˇelen´ı. Tvrzen´ı 5.3

ˇ Í V YB ´ Eˇ ROV E´ HO ROZPTYLU ROZD ELEN

Pˇredpokládejme, ˇze máme náhodn´ y v´ ybˇer o rozsahu n z normáln´ıho rozdˇelen´ı s rozptylem σ 2 . Pak náhodná veliˇcina n−1 2 χ2 = S σ2 má χ2 -rozdˇelen´ı s n − 1 stupni volnosti. Nyn´ı pˇredpokládejme, ˇze máme náhodn´ y v´ ybˇer o rozsahu n z normáln´ıho rozdˇelen´ı se stˇredn´ı X−µ √ ∼ N (0, 1) a veliˇ hodnotou µ a s neznám´ ym rozptylem. Jelikoˇz náhodná veliˇcina Z = σ/ cina n q

χ2 = n−1 S 2 ∼ χ2 (n−1), pak z definice t-rozdˇelen´ı vypl´ yvá ˇze náhodná veliˇcina Z/ χ2 /n − 1 σ2 má t-rozdˇelen´ı s n − 1 stupni volnosti. Vzhledem k tomu, ˇze plat´ı relace √ X −µ n−1 X −µ σ X −µ Z q √ ·q √ · = √ = = n−1 2 σ/ n σ/ n S S/ n S χ2 /n − 1 2 σ dostáváme pro statistiku T =

X −µ √ , S/ n

kterou budeme naz´ yvat t-statistikou, následuj´ıc´ı tvrzen´ı. 71

K APITOLA 5

Tvrzen´ı 5.4


ˇ Í t- STATISTIKY ROZD ELEN

Mˇejme náhodn´ y v´ ybˇer o rozsahu n z normáln´ıho rozdˇelen´ı se stˇredn´ı hodnotou µ. Pak má náhodná veliˇcina X −µ √ T = S/ n t-rozdˇelen´ı s n − 1 stupni volnosti.

5.3.3

Rozdˇ elen´ı v´ ybˇ erov´ eho pod´ılu

Uvaˇzujme náhodn´ y v´ ybˇer ze základn´ıho souboru, v nˇemˇz sledovan´ y statistick´ y znak nebo sledovaná náhodná veliˇcina nab´ yvá pouze hodnot nula a jedna. V tomto pˇr´ıpadˇe mluv´ıme o v´ ybˇeru z alternativn´ıho rozdˇelen´ı. T´ımto rozdˇelen´ım kvantifikujeme napˇr´ıklad takové situace, kdy hodnotˇe statistického znaku, kter´ y nás zaj´ımá, pˇriˇrad´ıme ˇc´ıselnou hodnotu 1 a vˇsem dalˇs´ım ˇc´ıselnou hodnotu 0 a zaj´ımá nás, jaké procento statistick´ ych jednotek ze základn´ıho souboru má urˇcitou sledovanou vlastnost. Jde o tzv. dvoukategori´ aln´ı základn´ı soubor. Napˇr´ıklad, jestliˇze základn´ı soubor o rozsahu N , kter´ y uvaˇzujeme, tvoˇr´ı vˇsechny domácnosti ˇ v CR, sledovaná vlastnost je vlastnictv´ı osobn´ıho poˇc´ıtaˇce“, (1 – domácnost má osobn´ı ” poˇc´ıtaˇc, 0 – domácnost nemá osobn´ı poˇc´ıtaˇc), poˇcet domácnost´ı vlastn´ıc´ıch osobn´ı poˇc´ıtaˇc je ˇ které vlastn´ı osobn´ı Nv , pak pod´ıl z´ akladn´ıho souboru je pod´ıl vˇsech domácnost´ı v CR, poˇc´ıtaˇc, tj. Nv /N . Pˇredpokládejme, ˇze rozdˇelen´ı v základn´ım souboru je alternativn´ı a ˇze p znaˇc´ı bud’ relativn´ı ˇcetnost hodnoty 1 (pod´ıl statistick´ ych jednotek s hodnotou sledovaného znaku 1) v koneˇcném základn´ım souboru, nebo pravdˇepodobnost hodnoty 1, uvaˇzujeme-li nekoneˇcn´ y základn´ı soubor. M˚ uˇze-li sledovan´ y znak nebo sledovaná náhodná veliˇcina nab´ yvat pouze ’ hodnot 0 a 1, pak také v´ ybˇerov´ ymi hodnotami x1 , x2 , · · · , xn mohou b´ yt bud jedniˇcky nebo nuly. Protoˇze v´ ybˇer je náhodn´ y, je poˇcet jedniˇcek x ve v´ ybˇeru hodnotou náhodné veliˇciny X, která se naz´ yvá v´ ybˇ erovou absolutn´ı ˇ cetnost´ı. Pod´ıl pˆ = x/n, kde x znaˇc´ı poˇcet jednotek v´ ybˇeru maj´ıc´ıch specifikovanou vlastnost (naz´ yvan´ y ˇcasto poˇcet u ´spˇech˚ u“ a n − x poˇcet ” ” ne´ uspˇech˚ u“) a n je rozsah v´ ybˇeru, je pak hodnotou náhodné veliˇciny X Pˆ = , n která se naz´ yvá v´ ybˇ erovou relativn´ı ˇ cetnost´ı nebo ˇcastˇeji v´ ybˇ erov´ ym pod´ılem. Z toho, co bylo ˇreˇceno je zˇrejmé, ˇze v´ ybˇerov´ y pod´ıl je roven v´ ybˇerovému pr˚ umˇeru náhodného v´ ybˇeru z alternativn´ıho rozdˇelen´ı. Pozn´ amka: V dalˇs´ım textu budeme pouˇz´ıvat stejné oznaˇcen´ı pˆ pro náhodnou veliˇcinu Pˆ i jej´ı hodnotu pˆ . Podobnˇe jako v pˇr´ıpadˇe stˇredn´ı hodnoty, mus´ıme znát v´ ybˇ erov´ e rozdˇ elen´ı pod´ılu, (pravdˇepodobnostn´ı rozdˇelen´ı náhodné veliˇciny pˆ) , abychom mohli dˇelat závˇery o pod´ılu p. Z Moivreovy-Laplaceovy limitn´ı vˇety (viz odst. 4.4.1) vypl´ yvá následuj´ıc´ı tvrzen´ı. Tvrzen´ı 5.5

ˇ Í V YB ´ Eˇ ROV E´ HO POD Í LU ROZD ELEN

Pˇredpokládejme, ˇze máme náhodn´ y v´ ybˇer velkého rozsahu n z alternativn´ıho rozdˇelen´ı s pod´ılem p. Pak náhodná veliˇcina pˆ máqpˇribliˇznˇe normáln´ı rozdˇelen´ı se stˇredn´ı hodnotou µpˆ = p a smˇerodatnou odchylkou σpˆ = p(1 − p)/n.

72

´ ´ N AHODN ´ ´ V YB ´ Eˇ RY 5.4 N EZ AVISL E E

Z tvrzen´ı 5.4 lze odvodit, ˇze normovaná náhodná veliˇcina pˆ − p

Z=q

p(1 − p)/n

(5.8)

má pro velká n pˇribliˇznˇe normované normáln´ı rozdˇelen´ı. Pˇresnost normáln´ı aproximace závis´ı na n a p. Pro p bl´ızké 0.5 je aproximace dostateˇcnˇe ˇ ım se p v´ıce liˇs´ı od 0.5, t´ım vˇetˇs´ı n potˇrebujeme k tomu, aby pˇresná pro rozumné n. C´ aproximace byla pˇresná. B´ yvá zvykem pouˇz´ıvat aproximaci normáln´ım rozdˇelen´ım, pokud np ≥ 5 a zároveˇ n n(1 − p) ≥ 5, neboli min(np, n(1 − p)) ≥ 5.

5.4

Nez´ avisl´ e n´ ahodn´ e v´ ybˇ ery

Nˇekteré metody, kter´ ymi se budeme v kapitole 7 zab´ yvat, nevyˇzaduj´ı pouze, aby v´ ybˇery byly náhodné, ale také aby byly nezávislé, zhruba ˇreˇceno, aby v´ ybˇer z jednoho rozdˇelen´ı nemˇel ˇza´dn´ y vliv na v´ ybˇer z jiného rozdˇelen´ı. Necht’ X1 = (X11 , X12 , · · · , X1n1 ) je náhodn´ y v´ ybˇer rozsahu n1 z rozdˇelen´ı s distribuˇcn´ı funkc´ı F1 (x) a X2 = (X21 , X22 , · · · , X2n2 ) je náhodn´ y v´ ybˇer rozsahu n2 z rozdˇelen´ı s distribuˇcn´ı funkc´ı F2 (x). Náhodné v´ ybˇery X1 a X2 jsou nez´ avisl´ e, jestliˇze náhodné veliˇciny X11 , X12 , · · · , X1n1 , X21 , X22 , · · · , X2n2 jsou nezávislé, pˇriˇcemˇz veliˇciny X11 , X12 , · · · , X1n maj´ı distribuˇcn´ı funkc´ı F1 (x) a X21 ,X22 ,· · · , X2n maj´ı distribuˇcn´ı funkc´ı F2 (x) (viz odst. 4.1.3). Jsou-li distribuˇcn´ı funkce F1 (x) a F2 (x) identické, jedná se o dva nezávislé v´ ybˇery z téhoˇz rozdˇelen´ı.

5.4.1

Dva nez´ avisl´ e v´ ybˇ ery z norm´ aln´ıho rozdˇ elen´ı nebo velk´ e rozsahy v´ ybˇ er˚ u

Mˇejme náhodn´ y v´ ybˇer X1 = (X11 , X12 , · · · , X1n1 ) rozsahu n1 z rozdˇelen´ı N (µ1 , σ12 ) a náhodn´ y 2 ’ v´ ybˇer X2 = (X21 , X22 , · · · , X2n2 ) rozsahu n2 z rozdˇelen´ı N (µ2 , σ2 ). Necht v´ ybˇery X1 a X2 jsou nezávislé. Potom statistiky X1 a X2 jsou nezávislé (viz odstavec 4.1.3), X1 ∼ N (µ1 , σ12 /n1 ), X2 ∼ N (µ2 , σ22 /n2 ) a statistika X 1 −X 2 má rozdˇelen´ı N (µ1 −µ2 , σ12 /n1 +σ22 /n2 ) (viz odstavec 5.3.1). Bezprostˇredn´ım d˚ usledkem je následuj´ıc´ı tvrzen´ı. Tvrzen´ı 5.6

ˇ Í ROZD Í LU V YB ´ Eˇ ROV YCH ´ ˚ Eˇ R U˚ ( NEZ AVISL ´ ´ V YB ´ ERY ˇ ) ROZD ELEN PR UM E

Pˇredpokládejme, ˇze máme dva nezávislé náhodné v´ ybˇery o rozsaz´ıch n1 a n2 z rozdˇelen´ı se stˇredn´ımi hodnotami µ1 a µ2 a smˇerodatn´ ymi odchylkami σ1 a σ2 . Dále pˇredpokládejme, ˇze bud’ obˇe rozdˇelen´ı jsou normáln´ı nebo oba v´ ybˇery maj´ı velk´ y rozsah. Pak náhodná aln´ı rozdˇelen´ı se stˇredn´ı hodnotou µ(¯x1 −¯x2 ) = µ1 − µ2 veliˇcina X 1 − X 2 má (pˇribliˇznˇe) norm´ q a smˇerodatnou odchylkou σ(¯x1 −¯x2 ) = σ12 /n1 + σ22 /n2 . Tud´ıˇz normovaná náhodná veliˇcina Z=

(X 1 − X 2 ) − (µ1 − µ2 ) q

(σ12 /n1 ) + (σ22 /n2 )

(5.9)

má alespoˇ n pˇribliˇznˇe normované normáln´ı rozdˇelen´ı. Toto tvrzen´ı tvoˇr´ı teoretick´ y základ pro odvozen´ı statistick´ ych indukˇcn´ıch metod pro porovnán´ı stˇredn´ıch hodnot dvou základn´ıch soubor˚ u. 73

K APITOLA 5


Dva nez´ avisl´ e v´ ybˇ ery z rozdˇ elen´ı se shodn´ ymi rozptyly Nyn´ı pˇredpokládejme, ˇze σ12 = σ22 = σ 2 a rozptyl σ 2 nen´ı znám, coˇz je obvyklé v praktick´ ych 2 2 2 pˇr´ıpadech. Dosazen´ım hodnoty σ za σ1 a σ2 do definice náhodné veliˇciny Z ve vztahu (5.9) dostaneme náhodnou veliˇcinu Z=

(X 1 − X 2 ) − (µ1 − µ2 ) q

σ (1/n1 ) + (1/n2 )

.

(5.10)

zen´ eho v´ ybˇ erov´ eho rozptylu SP2 V´ ybˇerové rozptyly S12 a S22 pouˇzijeme k sestrojen´ı tzv. sdruˇ SP2 =

(n1 − 1)S12 + (n2 − 1)S22 . n1 + n2 − 2

(5.11)

Sdruˇzen´ y v´ ybˇerov´ y rozptyl m˚ uˇzeme chápat jako váˇzen´ y rozptyl, ve kterém jednotlivé v´ ybˇerové 2 2 rozptyly S1 a S2 jsou váˇzeny odpov´ıdaj´ıc´ımi stupni volnosti. (Index P“ pocház´ı z anglického ” term´ınu pooled sample variance“, kter´ y znamená sdruˇzen´ y v´ ybˇerov´ y rozptyl). Nahrazen´ım ” neznámého rozptylu σ 2 v rovnici (5.10) sdruˇzen´ ym v´ ybˇerov´ ym rozptylem SP2 , dostaneme náhodnou veliˇcinu (X 1 − X 2 ) − (µ1 − µ2 ) q , (5.12) SP (1/n1 ) + (1/n2 ) která na rozd´ıl od náhodné veliˇciny definované v (5.10), nemá normované normáln´ı rozdˇelen´ı, ale t-rozdˇelen´ı. Náhodnou veliˇcinu definovanou v (5.12) budeme naz´ yvat sdruˇ zen´ a t-statistika. Jej´ı rozdˇelen´ı specifikuje následuj´ıc´ı tvrzen´ı. Tvrzen´ı 5.7

ˇ Í SDRU Zˇ EN E´ t- STATISTIKY ROZD ELEN

Pˇredpokládejme, ˇze máme dva nezávislé náhodné v´ ybˇery o rozsaz´ıch n1 a n2 z rozdˇelen´ı se stˇredn´ımi hodnotami µ1 a µ2 . Dále pˇredpokládejme, ˇze smˇerodatné odchylky obou rozdˇelen´ı jsou shodné. Pak náhodná veliˇcina T =

X 1 − X 2 − (µ1 − µ2 ) q

SP 1/n1 + 1/n2

,

kde SP je definováno v (5.11), má t-rozdˇelen´ı s n1 + n2 − 2 stupni volnosti. Dva nez´ avisl´ e v´ ybˇ ery z rozdˇ elen´ı s r˚ uzn´ ymi rozptyly Podobnˇe jako v pˇr´ıpadˇe diskutovaném v´ yˇse budeme pˇredpokládat, ˇze standardn´ı odchylky v obou v´ ybˇerech jsou neznámé. Nahrad´ıme σ1 a σ2 v´ ybˇerov´ ymi smˇerodatn´ ymi odchylkami S1 a S2 a dostaneme náhodnou veliˇcinu, (X 1 − X 2 ) − (µ1 − µ2 ) q

(S12 /n1 ) + (S22 /n2 )

,

(5.13)

která jiˇz nemá normované normáln´ı rozdˇelen´ı, ale má pˇribliˇznˇe t-rozdˇelen´ı. Tuto statistiku budeme naz´ yvat nesdruˇ zen´ a t-statistika . 74

´ ´ N AHODN ´ ´ V YB ´ Eˇ RY 5.5 P AROV E E

Tvrzen´ı 5.8

ˇ Í NESDRU ZEN ˇ E´ t- STATISTIKY ROZD ELEN

Pˇredpokládejme, ˇze máme dva nezávislé v´ ybˇery o rozsahu n1 a n2 z normáln´ıch rozdˇelen´ı se stˇredn´ımi hodnotami µ1 a µ2 . Pak má náhodná veliˇcina (X 1 − X 2 ) − (µ1 − µ2 ) T = q (S12 /n1 ) + (S22 /n2 ) pˇribliˇznˇe t-rozdˇelen´ı s poˇctem stupˇ n˚ u volnosti δ, kde δ=

[(s21 /n1 ) + (s22 /n2 )]2 (s21 /n1 )2 n1 −1

+

(s22 /n2 )2 n2 −1

,

zaokrouhleno dol˚ u na nejbliˇzˇs´ı celé ˇc´ıslo.

5.4.2

Dva nez´ avisl´ e v´ ybˇ ery z alternativn´ıho rozdˇ elen´ı

Máme-li dva nezávislé náhodné v´ ybˇery o rozsahu n1 a n2 z alternativn´ıch rozdˇelen´ı s parametry (pod´ıly) p1 a p2 , pak je v´ ybˇerov´ y pod´ıl pî , i = 1, 2 roven v´ ybˇerovému pr˚ umˇeru Xi . Z tvrzen´ı 5.5 a 5.6 plyne následuj´ıc´ı tvrzen´ı 5.9, které tvoˇr´ı teoretick´ y základ nutn´ y pro odvozen´ı statistick´ ych indukˇcn´ıch metod pro porovnán´ı dvou dvoukategoriáln´ıch základn´ıch soubor˚ u. Tvrzen´ı 5.9

ˇ Í ROZD Í LU DVOU V YB ´ Eˇ ROV YCH ´ ˚ ( NEZ AVISL ´ ´ V YB ´ Eˇ RY ) ROZD ELEN POD Í L U E

Pˇredpokládejme, ˇze máme dva nezávislé náhodné v´ ybˇery o rozsaz´ıch n1 a n2 z alternativn´ıch rozdˇelen´ı s pod´ıly p1 a p2 . Pak pro velké v´ ybˇery má náhodná veliˇcina pˆ1 − pˆ2 pˇribliˇznˇe normáln´ı q rozdˇelen´ı se stˇredn´ı hodnotou µ(ˆp1 −ˆp2 ) = p1 − p2 a smˇerodatnou odchylkou σ(ˆp1 −ˆp2 ) = p1 (1 − p1 )/n1 + p2 (1 − p2 )/n2 , kde pî = xi /ni je v´ ybˇerov´ y pod´ıl i-té populace, xi je poˇcet u ´spˇech˚ u v i-té populaci, i = 1, 2. Tud´ıˇz normovaná náhodná veliˇcina (ˆ p1 − pˆ2 ) − (p1 − p2 )

Z=q

p1 (1 − p1 )/n1 + p2 (1 − p2 )/n2

má pˇribliˇznˇe normované normáln´ı rozdˇelen´ı.

5.5

P´ arov´ e n´ ahodn´ e v´ ybˇ ery

Necht’ X1 = (X11 , X12 , · · · , X1n ) je náhodn´ y v´ ybˇer rozsahu n z rozdˇelen´ı se stˇredn´ı hodno2 y v´ ybˇer stejného rozsahu n tou µ1 a rozptylem σ1 , a X2 = (X21 , X22 , · · · , X2n ) je náhodn´ ybˇer˚ u utvoˇr´ıme v´ ybˇer z rozdˇelen´ı se stˇredn´ı hodnotou µ2 a rozptylem σ22 . Z tˇechto dvou v´ n dvojic (X11 , X21 ), (X12 , X22 ), ..., (X1n , X2n ). Kaˇzdé dvojici veliˇcin (X1j , X2j ), j = 1, 2, · · · , n pˇriˇrad´ıme náhodnou veliˇcinu Dj = X1j − X2j , j = 1, 2, · · · , n, tzv. p´ arovou diferenci, kterou z´ıskáme odeˇcten´ım pˇr´ısluˇsné párové hodnoty v druhém v´ ybˇeru od párové hodnoty v prvn´ım v´ ybˇeru. Na posloupnost párov´ ych diferenc´ı D1 , D2 , · · · , Dn náhodnˇe vybran´ ych n dvojic se m˚ uˇzeme d´ıvat jako na náhodn´ y v´ ybˇer z rozdˇelen´ı vˇsech moˇzn´ ych párov´ ych diferenc´ı. Oznaˇcme stˇredn´ı hodnotu takového rozdˇelen´ı párov´ ych diferenc´ı µd . 75

K APITOLA 5


Pak lze ukázat, ˇze µd = µ1 − µ2 .

(5.14)

O vztahu rozptylu σd2 rozdˇelen´ı párov´ ych diferenc´ı k rozptyl˚ um σ12 a σ22 nem˚ uˇzeme vzhledem ybˇerov´ y pr˚ umˇer párov´ ych diferenc´ı, k moˇzné závislosti veliˇcin nic pˇredpokládat. Oznaˇcme D v´ tud´ıˇz D = X 1 −X 2 , kde X i je v´ ybˇerov´ y pr˚ umˇer náhodného v´ ybˇeru z i-tého rozdˇelen´ı, i = 1, 2. Dále oznaˇcme Sd v´ ybˇerovou smˇerodatnou odchylku párov´ ych diferenc´ı pro kterou plat´ı v u u Sd = t

n 1 X (Dj − D)2 . n − 1 j=1

(5.15)

Je-li rozdˇelen´ı párov´ ych diferenc´ı normáln´ı, pak m˚ uˇzeme aplikovat tvrzen´ı 5.3, pouˇz´ıt rovnost (5.14) a dostaneme následuj´ıc´ı v´ ysledek. Tvrzen´ı 5.10

ˇ Í P AROV ´ ´ t- STATISTIKY ROZD ELEN E

Pˇredpokládejme, ˇze máme náhodn´ y v´ ybˇer n dvojic z rozdˇelen´ı se stˇredn´ımi hodnotami µ1 a µ2 . Dále pˇredpokládejme, ˇze rozdˇelen´ı vˇsech párov´ ych dvojic je normáln´ı. Pak náhodná veliˇcina D − (µ1 − µ2 ) √ T = Sd / n má t-rozdˇelen´ı s n − 1 stupni volnosti.

76

Kapitola 6 Z´ aklady teorie odhadu parametr˚ u Tato kapitola vycház´ı z v´ ysledk˚ u kapitoly 5. Budeme se zab´ yvat problémem odhadován´ı parametr˚ u rozdˇelen´ı. Vysvˇetl´ıme, jaké vlastnosti by mˇely m´ıt odhady a jak je sestrojovat.

6.1

Bodov´ e a intervalov´ e odhady

Odhad neznámého parametru (charakteristiky) rozdˇelen´ı nebo základn´ıho souboru lze provést dvˇema zp˚ usoby. Prvn´ı zp˚ usob spoˇc´ıvá v tom, ˇze z hodnot v´ ybˇerového souboru vypoˇc´ıtáme jedno ˇc´ıslo - hodnotu statistiky a tu prohlás´ıme za odhad odpov´ıdaj´ıc´ıho parametru (charakteristiky). Tento odhad jedn´ım ˇc´ıslem se naz´ yvá bodov´ y odhad. Definice 6.1

B ODOV Y´ ODHAD

Bodovy´ odhad parametru je hodnota statistiky, kterou pouˇ zijeme pro odhad parametru.

Jak jsme se jiˇz zm´ınili v kapitole 5, nebylo by rozumné oˇcekávat, ˇze v´ ybˇerová charakteristika bude pˇresnˇe rovna parametru rozdˇelen´ı nebo charakteristice základn´ıho souboru. Potˇrebujeme vˇedˇet, jak pˇresn´ y bude náˇs odhad. Toho doc´ıl´ıme t´ım, ˇze bodov´ y odhad parametru pouˇzijeme k sestrojen´ı intervalu hodnot a stanov´ıme pravdˇepodobnost s jakou parametr leˇz´ı v tomto intervalu. Definice 6.2

I NTERVALOV Y´ ODHAD

Intervalovy´ odhad parametru je odhad pomoc´ı intervalu, kter´ y z´ıskáme z bodového

odhadu parametru a zadán´ım pravdˇepodobnosti s jakou parametr leˇz´ı v tomto intervalu. Pˇredpokládejme, ˇze X = (X1 , X2 , ..., Xn ) je náhodn´ y v´ ybˇer z rozdˇelen´ı, které závis´ı na neznámém parametru θ =(θ1 , ..., θk ). Na základˇe pozorovan´ ych hodnot vektoru X chceme odhadnout parametr θ, o kterém je pˇredem známo pouze tolik, ˇze patˇr´ı do mnoˇziny Θ ⊆ Rk . Tuto mnoˇzinu pˇr´ıpustn´ ych hodnot parametru θ budeme naz´ yvat parametrick´ y prostor. Statistika T = T (X1 , X2 , · · · , Xn ), kterou pouˇzijeme k odhadován´ı parametru θ se naz´ yvá odhadov´ a statistika. Jej´ı hodnota T (x) je pak bodov´ y odhad parametru θ z´ıskan´ y na základˇe konkrétn´ı realizace x = (x1 , x2 , ..., xn ) náhodného v´ ybˇeru. Pro jednoduchost se omez´ıme na pˇr´ıpad jednorozmˇerného parametru θ. 77

K APITOLA 6

6.2

´ ˚ Z AKLADY TEORIE ODHADU PARAMETR U

Vlastnosti bodov´ ych odhad˚ u

Provedeme-li v´ ybˇer rozsahu n ze základn´ıho souboru, lze z nˇeho zpravidla z´ıskat nˇekolik r˚ uzn´ ych statistik, které je moˇzno pouˇz´ıt k odhadu charakteristiky základn´ıho souboru. Kdybychom napˇr´ıklad mˇeli odhadnout stˇredn´ı hodnotu symetrického rozdˇelen´ı, lze k odhadován´ı pouˇz´ıt tˇri statistiky: medián, aritmetick´ y pr˚ umˇer z v´ ybˇerov´ ych pozorován´ı a poloviˇcn´ı souˇcet nejmenˇs´ı a nejvˇetˇs´ı v´ ybˇerové hodnoty. Tyto tˇri statistiky nedávaj´ı zˇrejmˇe stejnˇe kvalitn´ı odhady stˇredn´ı hodnoty rozdˇelen´ı. K odhadu charakteristiky základn´ıho souboru nevol´ıme tedy jakoukoliv statistiku, n´ ybrˇz takovou statistiku, která splˇ nuje urˇcitá kritéria. Uvedeme ta nejd˚ uleˇzitˇejˇs´ı.

6.2.1

Nestrann´ e odhady

D˚ uleˇzit´ y poˇzadavek kladen´ y na zvolenou statistiku je, aby nevedla k systematickému nadhodnocován´ı nebo podhodnocován´ı odhadované charakteristiky, tj. aby nevedla k systematick´ ym chybám. Chceme tedy, aby stˇredn´ı hodnota statistiky byla rovna odhadovanému parametru. Definice 6.3

N ESTRANN Y´ ODHAD

Statistika T je nestrannym ym, nezkreslenym) odhadem parametru θ, plat´ı-li ´ (nevychylen ´ ´ ´ pro kaˇzdé θ ∈ Θ E(T ) = θ. Pozn´ amka: Ve vˇsech pˇr´ıkladech v tomto odstavci budeme pˇredpokládat, ˇze máme náhodn´ y v´ ybˇer (X1 , X2 , · · · , Xn ) z rozdˇelen´ı se stˇredn´ı hodnotou µ a koneˇcn´ ym rozptylem σ 2 . Pˇ r´ıklad 6.1 Nestranné odhady ˚ er X je nestrannym ´ odhadem stˇredn´ı hodnoty µ rozdˇelen´ı a zˇe výbˇerovy´ Ukaˇzte, zˇe vy´ bˇerový prumˇ rozptyl S 2 je nestranny´ m odhadem rozptylu σ 2 . ˇ sen´ı: Z rovnice (5.1) plyne, zˇe E(X) = µ. K urˇcen´ı E(S 2 ) vyuˇzijeme rovnosti S 2 = n M2 a nejprve Reˇ n−1 odvod´ıme E(M2 ).

E(M2 )

=

n n 1 X 1 X E( (Xi − X)2 ) = E( (Xi − µ + µ − X)2 ) n i=1 n i=1 n

= =

¤ 1 X£ E(Xi − µ)2 − 2E(Xi − µ)E(X − µ) + E(X − µ)2 n i=1 ¶ n µ 1X n−1 2 1 2 2 σ . σ − σ = n i=1 n n

(6.1)

n ´ ˇ jsme Z rovnice (6.1) vyply´ va´ E(S 2 ) = n−1 E(M2 ) = σ 2 . Tud´ızˇ S 2 je nestranny´ odhad σ 2 . Zarove n 2 ´ ´ ´ odhadem rozptylu σ . ukazali, zˇe M2 je vychylen ym

Rozd´ıl B(θ) = E(T ) − θ se naz´ yvá vych´ ylen´ı (zkreslen´ı) odhadu T .

78

(6.2)

´ ˚ 6.2 V LASTNOSTI BODOV YCH ODHAD U

Pˇ r´ıklad 6.2 Vychýlen´ı odhadu ´ ´ er pochaz´ ´ ı. Urˇcete vychylen´ ı odhadu M2 rozptylu σ 2 rozdˇelen´ı, z nˇehoˇz vybˇ 2 ˇ sen´ı: B(σ ) = E(M2 ) − σ 2 = n−1 σ 2 − σ 2 = 1 σ 2 . Vychy´ len´ı odhadu M2 rozptylu σ 2 je rovno σ 2 /n. Reˇ n n

Jestliˇze se pˇri rostouc´ım rozsahu v´ ybˇeru vych´ ylen´ı zmenˇsuje, tj. jestliˇze lim [E(T ) − θ] = 0,

(6.3)

n→∞

pak T se naz´ yvá asymptoticky nestrann´ y odhad . Pˇ r´ıklad 6.3 Asymptoticky nestranný odhad ´ erovy´ centraln´ ´ ı moment je asymptoticky nestrannym ´ odhadem rozptylu. Ukaˇzte, zˇe druhy´ vybˇ ˇ sen´ı: Toto tvrzen´ı vyplyv ´ a´ pˇr´ımo z vysledku ´ Reˇ pˇr´ıkladu 6.1. Plat´ı 1 2 σ = 0. n→∞ n

lim [E(M2 ) − σ 2 ] = lim

n→∞

6.2.2

Konzistentn´ı odhady

V nˇekter´ ych pˇr´ıpadech jsme nuceni pracovat s vych´ ylen´ ymi odhady. Pak poˇzadujeme, aby odhad byl konzistentn´ı, tj. aby se pro rostouc´ı rozsah v´ ybˇeru bl´ıˇzil odhadovanému parametru. Definice 6.4

KONZISTENTN Í ODHAD

Statistika T je konzistentn´ım odhadem parametru θ, plat´ı-li pro kaˇzdé ² > 0 lim P (| T − θ |< ²) = 1.

n→∞

Jin´ ymi slovy, odhad T je konzistentn´ım odhadem parametru θ, jestliˇze konverguje podle pravdˇepodobnosti k θ. Podm´ınka konzistence tedy vyjadˇruje poˇzadavek, aby s rostouc´ım rozsahem v´ ybˇeru rostla i pravdˇepodobnost, ˇze pouˇzitá statistika T bude m´ıt hodnotu liˇs´ıc´ı se od hodnoty odhadovaného parametru jen velmi málo (dokonce libovolnˇe málo). Tvrzen´ı 6.1

ˇ Í C Í PODM Í NKA PRO P OSTA CUJ

KONZISTENCI

Necht’ pro T plat´ı lim B(θ) = 0 a

lim D(T ) = 0,

n→∞

n→∞

pak T je konzistentn´ı odhad θ. ˇ D˚ ukaz plyne z aplikace Cebyˇ sevovy nerovnosti (4.32) na P (| T − θ |) v definici 6.4. Pˇ r´ıklad 6.4 Konzistentn´ı odhad ´ erovy´ prumˇ ˚ er X je konzistentn´ım odhadem stˇredn´ı hodnoty µ. Ukaˇzte, zˇe vybˇ ˇ Reˇsen´ı: Vzhledem k tomu, zˇ e E(X) = µ a D(X) = σ 2 /n dostaneme B(µ) = E(X) − µ = 0,

σ2 =0 n→∞ n

lim D(X) = lim

n→∞

a tedy pˇredpoklady tvrzen´ı 6.1 jsou splnˇeny.

79

(6.4)

K APITOLA 6

6.2.3


Vydatnost odhad˚ u

V nˇekter´ ych pˇr´ıpadech lze naj´ıt v´ıce statistik, které jsou nestranné a konzistentn´ı. V takovém pˇr´ıpadˇe pouˇzijeme k odhadován´ı parametru tu z nich, která má nejmenˇs´ı rozptyl. O statistice, která má ze vˇsech nestrann´ ych odhad˚ u nejmenˇs´ı rozptyl, ˇr´ıkáme, ˇze je vydatn´ ym (nejlepˇ s´ım nestrann´ ym) odhadem parametru θ. Necht’ T a U jsou dva nestranné odhady parametru θ, pak vydatnost odhadu T vzhledem k odhadu U je definována vztahem e(T, U ) =

D(U ) . D(T )

(6.5)

I kdyˇz v´ ybˇerová charakteristika bude splˇ novat vˇsechny v´ yˇse uvedené poˇzadavky, je zˇrejmé, ˇze jej´ı hodnota vypoˇctená na základˇe u ´daj˚ u z´ıskan´ ych náhodn´ ym v´ ybˇerem se bude prakticky vˇzdy urˇcit´ ym zp˚ usobem liˇsit od odhadovaného parametru rozdˇelen´ı nebo charakteristiky základn´ıho souboru. D˚ usledkem této odliˇsnosti je vznik tzv. v´ ybˇ erov´ e chyby , tj. rozd´ılu θ − T. Nyn´ı pˇredpokládejme, ˇze srovnáváme vych´ ylené i nestranné odhady parametru θ jako na obrázku 6.1. V takovém pˇr´ıpadˇe jiˇz nemus´ı b´ yt vhodné vybrat odhad s nejmenˇs´ım rozptylem. Odhad T má sice nejmenˇs´ı rozptyl, ale jako odhad se nedá pouˇz´ıt, nebot’ má velké vych´ ylen´ı. Ani odhad s nejmenˇs´ım vych´ ylen´ım vˇsak nemus´ı b´ yt nejvhodnˇejˇs´ı. Odhad U má nulové vych´ ylen´ı, ale jako odhad nen´ı pˇr´ıliˇs uspokojiv´ y, nebot’ jeho rozptyl je pˇr´ıliˇs velk´ y. Jako nejlepˇs´ı se jev´ı odhad V , kter´ y má nejlepˇs´ı kombinaci malého vych´ ylen´ı a malého rozptylu. Obr´ azek 6.1 Odhad V s nejlepˇs´ı kombinac´ı malého vychýlen´ı a rozptylu p(t)

p(v) p(u) Θ skuteˇcná hodnota

Pˇresnost bodového odhadu lze mˇeˇrit pomoc´ı stˇ redn´ı kvadratick´ e chyby M SE(T ) statistiky T . Definice 6.5

ˇ Í KVADRATICK A´ CHYBA S T REDN

Stˇredn´ı kvadraticka´ chyba statistiky T pro odhad parametru θ je definov´ ana jako

M SE(T ) = E(T − θ)2 = D(T ) + B 2 (θ) (M SEodhadu = (rozptyl odhadu + (jeho vych´ ylen´ı)2 ). Na rozd´ıl od v´ ybˇerové chyby, stˇredn´ı kvadratická chyba neudává velikost v´ ybˇerové chyby pˇri odhadován´ı na základˇe u ´daj˚ u jednoho konkrétn´ıho v´ ybˇeru, ale charakterizuje, jaká je pr˚ umˇerná“ v´ ybˇerová chyba odhad˚ u pˇricházej´ıc´ıch v u ´vahu pˇri vˇsech r˚ uzn´ ych v´ ybˇerech ” 80

´ ˚ 6.3 N Eˇ KTER E´ METODY BODOV YCH ODHAD U

daného rozsahu. Protoˇze jde o kombinaci dvou poˇzadovan´ ych vlastnost´ı, totiˇz malého vych´ ylen´ı a malého rozptylu, stává se pojem minimáln´ı stˇredn´ı kvadratické chyby (neboli maximáln´ı vydatnosti) univerzáln´ım kritériem pro posouzen´ı dvou odhad˚ u. Vyb´ıráme odhad, kter´ y má nejmenˇs´ı stˇredn´ı kvadratickou chybu. Toto potvrzuje dva pˇredchoz´ı závˇery. Jestliˇze porovnáváme dva odhady se stejn´ ym rozptylem, dáváme pˇrednost odhadu s menˇs´ım vych´ ylen´ım. A pokud srovnáváme dva odhady se stejn´ ym vych´ ylen´ım, pak je vhodnˇejˇs´ı ten, kter´ y má menˇs´ı rozptyl. Je-li statistika T nestrann´ ym odhadem parametru θ, pak z (6.2) a z definice 6.5 plyne, ˇze stˇredn´ı kvadratická chyba odhadu jeqrovna rozptylu a tud´ıˇz pˇresnost nestranného odhadu q q lze 2 mˇeˇrit pomoc´ı smˇerodatné odchylky D(T ) = E(T − E(T )) statistiky T. Veliˇcina D(T ) se naz´ yvá stˇ redn´ı chyba. Pˇ r´ıklad 6.5 Stˇredn´ı kvadratick´ a chyba Spoˇctˇete stˇredn´ı kvadratickou chybu statistiky S 2 a statistiky M2 . ˇ sen´ı: Uvaˇzujme nejprve statistiku S 2 , ktera´ je nestranny´ m odhadem σ 2 . Plat´ı, zˇe Reˇ M SE(S 2 ) = D(S 2 ) = E(S 2 − σ 2 )2 = E(S 4 ) − 2σ 2 E(σ 2 ) + σ 4 = E(S 4 ) − σ 4 =

2σ 4 . n−1

Pro stˇredn´ı kvadratickou chybu statistiky M2 dostaneme M SE(M2 ) = E(M2 − σ 2 )2 = E(M22 ) − 2 to je ménˇe neˇz M SE(S 2 ), nebot’ smyslu.

2n−1 n2

<

2 n−1 .

2−n 4 2n − 1 4 n−1 4 σ + σ 4 = E(M22 ) + σ = σ , n n n2

Kaˇzdý z tˇechto dvou odhadu˚ rozptylu je lepˇs´ı v jiném

Pro kaˇzdé dva odhady T a U parametru θ, vych´ ylené i nestranné, definujeme relativn´ı vydatnost odhadu T vzhledem k U jako vydatnost odhadu T vzhledem k U =

M SE(U ) . M SE(T )

(6.6)

Pˇ r´ıklad 6.6 Relativn´ı vydatnost ´ ´ er 500 pozorovan´ ´ ı z rozdˇelen´ı s rozptylem σ 2 a ztratili zaznam ´ Ekonomové provedli nahodn´ y vybˇ ´ ı. Maj´ı tedy k dispozici pouze 300 pozorovan´ ´ ı, ze kterych ´ posledn´ıch 200 pozorovan´ budou poˇc´ıtat ´ erovy´ prumˇ ˚ er X 300 . Jaka´ je vydatnost tohoto prumˇ ˚ eru X 300 vzhledem k prumˇ ˚ eru X 500 , ktery´ vybˇ ˚ ´ eru o rozsahu n = 500 ? mohli z´ıskat z puvodn´ ıho vybˇ ˇ sen´ı: Oba odhady jsou nestranné. Tud´ızˇ stˇredn´ı kvadraticka´ chyba obou odhadu ˚ je rovna jejich Reˇ rozptylu a vydatnost X 300 vzhledem k X 500 je e(X 300 , X 500 ) =

6.3

D(X 500 ) = D(X 300 )

σ2 500 σ2 300

=

3 . 5

Nˇ ekter´ e metody bodov´ ych odhad˚ u

Zat´ım jsme pojednávali o vlastnostech r˚ uzn´ ych odhad˚ u a nezab´ yvali jsme se otázkou, jak odhady odvozovat. Nyn´ı pop´ıˇseme dvˇe z nejˇcastˇeji pouˇz´ıvan´ ych metod pro hledán´ı odhad˚ u, a to metodu moment˚ u a metodu maximáln´ı vˇerohodnosti. 81

K APITOLA 6

6.3.1


Metoda moment˚ u

Uvaˇzujme rozdˇelen´ı, které závis´ı na r ≥ 1 reáln´ ych parametrech θ1 , θ2 , · · · , θr a mˇejme náhodn´ y v´ ybˇer z tohoto rozdˇelen´ı. Odhady parametr˚ u θ1 , θ2 , · · · , θr metodou moment˚ u se naleznou tak, ˇze se pro k = 1, 2, · · · , r vypoˇcte na základˇe konkrétn´ı realizace (x1 , x2 , · · · , xn ) 0 0 náhodného v´ ybˇeru hodnota m0k v´ ybˇerového k-tého obecného momentu Mk a mk se poloˇz´ı rovno k-tému obecnému momentu rozdˇelen´ı EXik = µ0k , tj. µ0k

n 1X xki , = n i=1

k = 1, 2, · · · , r.

(6.7)

T´ım dostaneme r rovnic, jejichˇz ˇreˇsen´ım najdeme odhady θˆ1 , θˆ2 , · · · , θˆr parametr˚ u θ1 , θ2 , · · · , θr . 0 V´ ybˇerov´ y moment Mk je aritmetick´ y pr˚ umˇer n náhodn´ ych veliˇcin, tedy existuje-li k-t´ y k 0 k obecn´ y moment EXi , pak Mk konverguje podle pravdˇepodobnosti k E(Xi ) podle Chinˇcinovy vˇety (viz odstavec 4.4.1), tud´ıˇz Mk0 je konzistentn´ım a také nestrann´ ym odhadem EXik . Pˇ r´ıklad 6.7 Odhad parametru λ rozdˇelen´ı P (λ) metodou moment˚ u ´ ´ eru z Poissonova rozdˇelen´ı P(λ), dostaneme rovnici V pˇr´ıpadˇe nahodn´ eho vybˇ 0

λ = m1 , ˆ parametru λ z´ıskanym ˆ=x ´ metodou momentu ˚ je λ takˇze odhadem λ ¯.

Pˇ r´ıklad 6.8 Odhad parametr˚ u µ a σ 2 rozdˇelen´ı N (µ, σ 2 ) metodou moment˚ u ´ ´ eru z normaln´ ´ ıho rozdˇelen´ı vede metoda momentu˚ na rovnice V pˇr´ıpadˇe nahodn´ eho vybˇ 0

µ = m1 ,

0

σ 2 + (µ)2 = m2 ,

´ a, ´ zˇe odhady parametru ˚ µ a σ 2 , z´ıskané metodou momentu ˚ jsou odkud vyplyv n

µ ˆ=x ¯,

6.3.2

n

1X 2 1X n−1 2 σˆ2 = ¯2 = xi − x (xi − x ¯ )2 = s . n i=1 n i=1 n

(6.8)

Metoda maxim´ aln´ı vˇ erohodnosti

Necht’ (X1 , X2 , · · · , Xn ) je náhodn´ y v´ ybˇer z rozdˇelen´ı s hustotou f (x, θ), respektive s pravdˇepodobnostn´ı funkc´ı P (Xi = xi ) = p(xi , θ), obsahuj´ıc´ı neznám´ y jednorozmˇern´ y parametr θ patˇr´ıc´ı do nˇejakého neprázdného otevˇreného intervalu Θ ⊆ R. Pak náhodn´ y vektor X = (X1 , X2 , · · · , Xn ) má sdruˇzenou hustotu rozdˇelen´ı respektive sdruˇzenou pravdˇepodobnostn´ı funkci g(x, θ) = g(x1 , x2 , · · · , xn , θ) = f (x1 , θ)f (x2 , θ) · · · f (xn , θ) (6.9) resp. g(x, θ) = g(x1 , x2 , · · · , xn , θ) = p(x1 , θ)p(x2 , θ) · · · p(xn , θ).

(6.10)

Hustota g(x, θ) reprezentuje funkci promˇenné x pˇri pevnˇe dané hodnotˇe θ. Pˇri kaˇzdé pevné hodnotˇe x lze g(x, θ) chápat jako funkci promˇenné θ. Pro tuto funkci budeme pouˇz´ıvat 82

´ ˚ 6.3 N Eˇ KTER E´ METODY BODOV YCH ODHAD U

oznaˇcen´ı L(θ, x) a naz´ yvat ji vˇ erohodnostn´ı funkce. Pro libovolnou dvojici (x, θ) samozˇrejmˇe plat´ı L(θ, x) = g(x, θ). Jde jen o to, ˇze uˇzit´ım symbolu L poukazujeme na tuto funkci jako na funkci promˇenné θ pˇri daném x. Existuje-li takové θˆ ∈ Θ, ˇze pro kaˇzdé θ ∈ Θ plat´ı ˆ x) ≥ L(θ, x), L(θ,

(6.11)

pak θˆ naz´ yváme maxim´ alnˇ e vˇ erohodn´ ym odhadem parametru θ. Maximálnˇe vˇerohodn´ y ˆ odhad parametru θ je taková hodnota θ ∈ Θ, pˇri které hodnota vˇerohodnostn´ı funkce je maximáln´ı (tj. pˇri dané realizaci (x1 , x2 , · · · , xn ) je θˆ nejvˇerohodnˇejˇs´ı“). ” M´ısto vˇerohodnostn´ı funkce je nˇekdy v´ yhodnˇejˇs´ı pracovat s jej´ım logaritmem a potom budeme mluvit o logaritmick´ e vˇ erohodnostn´ı funkci L(θ, x) = ln L(θ, x). Jelikoˇz funkce ln L je rostouc´ı funkc´ı L, plat´ı pro maximálnˇe vˇerohodn´ y odhad θˆ také ˆ x) ≥ L(θ, x) L(θ,

(6.12)

pro kaˇzdé θ ∈ Θ. Obecnˇe nejsou maximálnˇe vˇerohodné odhady nestranné. Existuje-li pro kaˇzdé x derivace ∂L(θ, x)/∂θ, pak θˆ mus´ı b´ yt ˇreˇsen´ım rovnice ∂L(θ, x) =0 ∂θ

(6.13)

a vzhledem k (6.12) je také ˇreˇsen´ım rovnice ∂L(θ, x) = 0. ∂θ

(6.14)

V matematické statistice se rovnice (6.14) naz´ yvá vˇ erohodnostn´ı rovnice. Pˇ r´ıklad 6.9 Maxim´ alnˇe vˇerohodný odhad parametru b rozdˇelen´ı U (0, b) ´ ´ er z U(0, b)-rozdˇelen´ı. Urˇcete maximalnˇ ´ e vˇerohodny´ odhad Necht’ (X1 , X2 , · · · , Xn ) je nahodn´ y vybˇ parametru b. ˇ sen´ı: Vˇerohodnostn´ı funkce ma´ v tomto pˇr´ıpadˇe tvar Reˇ L(b, x) = L(b, x1 , x2 , · · · , xn ) =

1 . bn

Protoˇze b > xi , i = 1, 2, · · · , n, plat´ı L(x(n) , x1 , x2 , · · · , xn ) = pro vˇsechna b > 0, takˇze

1 xn(n)

>

1 bn

ˆb = x(n)

´ e vˇerohodnym ´ odhadem parametru b. je maximalnˇ

Pˇ r´ıklad 6.10 Maxim´ alnˇe vˇerohodný odhad parametru λ rozdˇelen´ı P(λ) ´ ´ er z P(λ)-rozdˇelen´ı. Urˇcete maximalnˇ ´ e vˇerohodný odhad Necht’ (X1 , X2 , · · · , Xn ) je nahodn y´ vybˇ parametru λ. ˇ sen´ı: V pˇr´ıpadˇe vybˇ ´ eru z Poissonova rozdˇelen´ı ma´ vˇerohodnostn´ı funkce tvar Reˇ L(λ, x) = λ

Pn i=1

xi −nλ

e

83

1 . x1 !x2 ! · · · xn !

K APITOLA 6


Logaritmicka´ vˇerohodnostn´ı funkce je pak n X

L(λ, x) =

xi ln λ − nλ −

i=1

n X

ln xi.

i=1

´ e vˇerohodný odhad nalezneme rˇeˇsen´ım vˇerohodnostn´ı rovnice (6.14) Maximalnˇ n

−n + ´ a´ odkud vyplyv

1X Xi = 0, λ i=1 n

X ˆ= 1 λ xi = x ¯. n i=1

Maxim´ alnˇ e vˇ erohodn´ e odhady pro k ≥ 2 parametr˚ u Necht’ (X1 , X2 , · · · , Xn ) je náhodn´ y v´ ybˇer z rozdˇelen´ı s r ≥ 2 neznám´ ymi parametry θ1 , · · · , θr . Maximálnˇe vˇerohodn´ ymi odhady parametr˚ u θ1 , θ2 , · · · , θr nazveme statistiky θˆ1 , θˆ2 , · · · , θˆr , pro nˇeˇz plat´ı L(θˆ1 , θˆ2 , · · · , θˆr , x) ≥ L(θ1 , θ2 , · · · , θr , x) (6.15) resp.

L(θˆ1 , θˆ2 , · · · , θˆr , x) ≥ L(θ1 , θ2 , · · · , θr , x)

(6.16)

pro kaˇzdé (θ1 , θ2 , · · · , θr ) ∈ ⊆ Rr . Maximálnˇe vˇerohodn´ y odhad vektoru θ = (θ1 , θ2 , · · · , θr ) je urˇcen ˇreˇsen´ım soustavy vˇ erohodnostn´ıch rovnic ∂L(θ, x) = 0, i = 1, 2, · · · , r. ∂θi

(6.17)

Pˇ r´ıklad 6.11 Maxim´ alnˇe vˇerohodný odhad vektoru parametr˚ u (µ, σ 2 ) rozdˇelen´ı N (µ, σ 2 ) ´ ´ e vˇerohodny´ odhad Necht’ (X1 , X2 , · · · , Xn ) je nahodn´ y výbˇer z N (µ, σ 2 )-rozdˇelen´ı. Urˇcete maximalnˇ 2 ˚ µaσ . parametru ˇ sen´ı: V tomto pˇr´ıpadˇe ma´ logaritmicka´ vˇerohodnostn´ı funkce tvar Reˇ L(µ, σ 2 , x) = −

n n n 1 X ln 2π − ln σ 2 − 2 (xi − µ)2 . 2 2 2σ i=1

´ e vˇerohodné odhady parametru ˚ µ a σ 2 se naleznou rˇeˇsen´ım vˇerohodnostn´ıch rovnic Maximalnˇ 2 2 2 ∂L(µ, σ , x)/∂µ = 0 a ∂L(µ, σ , x)/∂σ = 0, tj. rˇeˇsen´ım rovnic n 1 X (xi − µ) = 0, σ 2 i=1

´ ame ´ Dostav tedy

n 1 X n − 2+ (xi − µ)2 = 0. 2σ 2(σ 2 )2 i=1

n

µ ˆ=x ¯,

σ2 =

1X n−1 2 s . (xi − x ¯)2 = n i=1 n

Vid´ıme, ˇze odhady parametr˚ u µ a σ 2 normáln´ıho rozdˇelen´ı metodou moment˚ u a metodou maximáln´ı vˇerohodnosti jsou shodné. 84

6.4 I NTERVALY SPOLEHLIVOSTI

6.4

Intervaly spolehlivosti

V pˇredcházej´ıc´ıch odstavc´ıch jsme se zab´ yvali vlastnostmi a metodami urˇcen´ı bodov´ ych odhad˚ u parametru θ. Pˇri praktickém pouˇz´ıván´ı odhadu parametru rozdˇelen´ı je tˇreba si uvˇedomit, ˇze se bodov´ y odhad parametru témˇeˇr vˇzdy liˇs´ı od skuteˇcné hodnoty parametru. Z toho d˚ uvodu potˇrebujeme z´ıskat informaci o pˇresnosti odhadu. To m˚ uˇzeme udˇelat pomoc´ı intervalového odhadu parametru. Nyn´ı se tˇemito odhady budeme zab´ yvat. Definice 6.6

I NTERVAL SPOLEHLIVOSTI , KOEFICIENT SPOLEHLIVOSTI

Interval (θD , θH ) je 100(1 − α) procentn´ım intervalem spolehlivosti pro θ, 0 < α < 1, jestliˇze θD a θH jsou dvˇe statistiky takové, ˇze plat´ı: P (θD < θ < θH ) = 1 − α ˇ ıslo 1 − α se naz´ pro kaˇzdé θ ∈ Θ. C´ yvá koeficient spolehlivosti. Interval spolehlivosti se také naz´ yvá konfidenˇ cn´ı interval pro θ. Z definice 6.6 intervalu spolehlivosti vypl´ yvá, ˇze pravdˇepodobnost toho, ˇze interval (θD , θH ) pokryje správnou hodnotu parametru θ, je rovna 1 − α. Interval spolehlivosti pro parametr θ m˚ uˇzeme také zadat nerovnost´ı θ > θD pˇr´ıp. θ < θH . Takto zadané intervaly spolehlivosti jsou jednostranné intervaly spolehlivosti, pˇriˇcemˇz prvn´ı interval se naz´ yvá levostrann´ y a druh´ y pravostrann´ y. Dvoustrann´ e intervaly spolehlivosti, které splˇ nuj´ı podm´ınku P (θH ≤ θ) = P (θ ≤ θD ) = α/2, se naz´ yvaj´ı symetrické intervaly spolehlivosti. V dalˇs´ım v´ ykladu se omez´ıme na dvoustranné symetrické intervaly spolehlivosti.

6.4.1

Sestrojen´ı intervalu spolehlivosti

Interval spolehlivosti stanov´ıme zpravidla tak, ˇze vyjdeme z nejlepˇs´ıho nestranného odhadu ˆ θ), která je takovou funkc´ı θ a θ, ˆ ˇze θˆ parametru θ a uvaˇzujeme náhodnou veliˇcinu U (θ, rozdˇelen´ı veliˇciny U nezávis´ı na θ. Pomoc´ı tohoto rozdˇelen´ı nalezneme uD a uH takové, ˇze P (U ≤ uD ) =

α , 2

P (U ≥ uH ) =

α . 2

(6.18)

Z (6.18) vypl´ yvá, ˇze P (uD < U < uH ) = P (U < uH ) − P (U ≤ uD ) = 1 − α.

(6.19)

Nerovnost uD < U < uH pˇrevedeme na ekvivalentn´ı nerovnost θD < θ < θH , takˇze plat´ı P (uD < U < uH ) = P (θD < θ < θH ) = 1 − α a tedy interval zadan´ y nerovnostmi (θD < θ < θH ) je 100(1 − α)% intervalem spolehlivosti pro parametr θ. Vztah mezi koeficientem spolehlivosti a d´ elkou intervalu spolehlivosti Koeficient spolehlivosti intervalu spolehlivosti udává spolehlivost odhadu, tj. vyjadˇruje, jak se m˚ uˇzeme spolehnout na to, ˇze hodnota odhadovaného parametru skuteˇcnˇe leˇz´ı uvnitˇr 85

K APITOLA 6


intervalu spolehlivosti. Tud´ıˇz spolehlivost odhadu je dána zvolenou pravdˇepodobnost´ı. Délka intervalu spolehlivosti udává pˇ resnost odhadu. Velké intervaly spolehlivosti znamenaj´ı menˇs´ı pˇresnost odhadu, kdeˇzto malé intervaly spolehlivosti znamenaj´ı dobrou pˇresnost. Pˇ ri pevn´ em rozsahu v´ ybˇ eru plat´ı, ˇ ze ˇ c´ım vˇ etˇ s´ı je koeficient spolehlivosti, t´ım vˇ etˇ s´ı je i d´ elka intervalu spolehlivosti. To je logické, nebot’ ˇc´ım v´ıce si chceme b´ yt jisti, ˇze odhadovan´ y parametr leˇz´ı ve stanoveném intervalu spolehlivosti, t´ım mus´ı b´ yt tento interval ˇsirˇs´ı. Jin´ ymi slovy, hodnota odhadovaného parametru bude leˇzet s vysokou pravdˇepodobnost´ı uvnitˇr intervalu, ale odhad bude ménˇe pˇresn´ y a jeho praktická pouˇzitelnost bude malá. Tud´ıˇz mezi spolehlivost´ı a pˇresnost´ı odhadu pˇri dané realizaci náhodného výbˇeru existuje nepˇr´ım´ a u ´mˇernost. Koeficient spolehlivosti vol´ıme bl´ızk´ y 1, doporuˇcované hodnoty jsou 0.99; 0.95, tj. konstruujeme 99% resp. 95% interval spolehlivosti. Stanov´ıme-li 99% respektive 95% interval spolehlivosti na základˇe dané realizace náhodného v´ ybˇeru, pokryje s pravdˇepodobnost´ı 0.99 respektive 0.95 skuteˇcnou hodnotu odhadovaného parametru. V dalˇs´ıch odstavc´ıch zamˇeˇr´ıme pozornost na intervaly spolehlivosti nˇekter´ ych d˚ uleˇzit´ ych charakteristik rozdˇelen´ı a to stˇredn´ı hodnoty, rozptylu a pod´ılu.

6.5

Intervaly spolehlivosti pro stˇ redn´ı hodnotu

V tomto odstavci budeme ˇreˇsit problém sestrojen´ı intervalu spolehlivosti pro stˇredn´ı hodnotu rozdˇelen´ı pˇri zadaném koeficientu spolehlivosti. Vyuˇzijeme v´ ysledky uvedené v kapitole 5 a sice kl´ıˇcové v´ ysledky 5.1 a 5.2 o asymptotickém rozdˇelen´ı v´ ybˇerového pr˚ umˇeru.

6.5.1

Intervaly spolehlivosti pro stˇ redn´ı hodnotu pˇ ri zn´ am´ em rozptylu

Pˇredpokládejme, ˇze máme náhodn´ y v´ ybˇer z rozdˇelen´ı se stˇredn´ı hodnotou µ a rozptylem σ 2 . Dále pˇredpokládejme, ˇze rozdˇelen´ı je normáln´ı nebo rozsah v´ ybˇeru n je velk´ y. Pak podle X−µ √ tvrzen´ı 5.2 má náhodná veliˇcina Z = σ/ n (pˇribliˇznˇe) normované normáln´ı rozdˇelen´ı. Tud´ıˇz pro Z plat´ı P (−zα/2 < Z < zα/2 ) = 1 − α. (6.20) R

Pˇripomeˇ nme, ˇze zα je taková hodnota náhodné veliˇciny Z, pro kterou plat´ı: z∞ φ(z)dz = α. α Ze vztahu (6.20) plyne, ˇze pro pozorovanou hodnotu x¯ náhodné veliˇciny X plat´ı σ σ P (µ − zα/2 √ < x¯ < µ + zα/2 √ ) = 1 − α. n n

(6.21)

Pˇrep´ıˇseme (6.21) pomoc´ı algebraick´ ych operac´ı na tvar σ σ P (¯ x − zα/2 √ < µ < x¯ + zα/2 √ ) = 1 − α. n n

(6.22)

Z rovnice (6.22) je vidˇet, ˇze jakmile máme k dispozici pozorované hodnoty náhodného v´ ybˇeru, interval ! Ã σ σ (6.23) x¯ − zα/2 √ , x¯ + zα/2 √ n n 86

6.5 I NTERVALY SPOLEHLIVOSTI PRO ST Rˇ EDNÍ HODNOTU

je 100(1 − α)% intervalem spolehlivosti pro µ. Postup sestrojen´ı intervalu spolehlivosti pro stˇredn´ı hodnotu µ pˇri známém rozptylu σ 2 , nˇekdy také naz´ yvan´ y jednov´ ybˇ erov´ y z-interval nebo krátce z-interval pro µ, je následuj´ıc´ı. Postup 6.1

Jednovy´ bˇerovy´ z-interval pro µ

Pˇredpoklady a. Normáln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru n 2 b. Znám´ y rozptyl σ 1. Pro koeficient spolehlivosti 1 − α, najdˇete hodnotu zα/2 v tabulce II.kritick´ ych hodnot N (0, 1)-rozdˇelen´ı. 2. Krajn´ı body intervalu spolehlivosti jsou σ x¯ ± zα/2 √ , n kde zα/2 je hodnota, urˇcená v 1. kroku, n je rozsah v´ ybˇeru a x¯ je vypoˇcten ze zkoumané realizace náhodného v´ ybˇeru. V pˇr´ıpadˇe v´ ybˇeru z normáln´ıho rozdˇelen´ı je koeficient spolehlivosti pˇresnˇe roven 1 − α, v pˇr´ıpadˇe v´ ybˇeru o velkém rozsahu z jiného neˇz normáln´ıho rozdˇelen´ı je koeficient spolehlivosti pˇribliˇznˇe roven 1 − α. Pozn´ amky: Jedn´ım z pˇredpoklad˚ u pro pouˇzit´ı tohoto postupu je, ˇze v´ ybˇer pocház´ı z normáln´ıho rozdˇelen´ı nebo rozsah v´ ybˇeru je velk´ y. Tento postup je pouˇziteln´ y dokonce pˇri v´ ybˇeru o malém nebo pˇrimˇeˇrenˇe malém rozsahu z jiného neˇz normáln´ıho rozdˇelen´ı za pˇredpokladu, ˇze rozdˇelen´ı se neliˇs´ı pˇr´ıliˇs od normáln´ıho. Postupy, které nejsou citlivé na odchylky od pˇredpoklad˚ u, na kter´ ych jsou zaloˇzené, se naz´ yvaj´ı robustn´ı. Tud´ıˇz postup pro sestrojen´ı z-intervalu pro parametr µ je robustn´ı v˚ uˇci mal´ ym odchylkám od pˇredpokladu normality. Pˇri u ´vahách o sestrojen´ı intervalu spolehlivosti pro parametr µ je také d˚ uleˇzité sledovat tzv. odlehlá (vyboˇcuj´ıc´ı) pozorován´ı, o kter´ ych jsme se jiˇz zm´ınili v kapitole 2. To znamená ty hodnoty, které byly chybnˇe namˇeˇreny nebo zaznamenány nebo indikuj´ı nesrovnalosti v modelu normality. Dokonce pro velké rozsahy v´ ybˇeru, mohou odlehlá pozorován´ı znaˇcnˇe ’ ovlivnit z-interval, nebot v´ ybˇerov´ y pr˚ umˇer nen´ı resistentn´ı v˚ uˇci odlehl´ ym pozorován´ım. Pˇ r´ıklad 6.12 Ilustrace postupu 6.1 ´ nahodn´ ´ Urˇcete 90% interval spolehlivosti pro stˇredn´ı hodnotu µ za pˇredpokladu, zˇe mate y výbˇer o ´ ıho rozdˇelen´ı se znamou ´ rozsahu n = 50 z normaln´ smˇerodatnou odchylkou σ = 12.1 a aritmeticky´ ˚ er je x prumˇ ¯ = 36.38. ˇ sen´ı: Koeficient spolehlivosti je 0.90 = 1 − 0.10. To znamena, ´ zˇe α = 0.10. Z tabulky II.urˇc´ıme Reˇ zα/2 = z0.10/2 = z0.05 = 1.645. ´ Mame σ = 12.1, n = 50, x ¯ = 36.38 a zα/2 = 1.645. Tud´ızˇ 90% interval spolehlivosti pro µ je µ ¶ 12.1 12.1 36.38 − 1.645 √ , 36.38 + 1.645 √ , 50 50 neboli interval (33.6, 39.2).

87

K APITOLA 6


Urˇ cen´ı rozsahu v´ ybˇ eru pro odhad stˇ redn´ı hodnoty Problémem sestrojen´ı intervalového odhadu pro parametr µ jsme se jiˇz zab´ yvali. Nyn´ı chceme urˇcit, jak rozsah v´ ybˇeru ovlivˇ nuje pˇresnost odhadu. Nejprve zavedeme pojmy a terminologii pouˇz´ıvané v problematice intervalov´ ych odhad˚ u. Definice 6.7

P Rˇ Í PUSTN A´ CHYBA ODHADU PRO µ

Pˇr´ıpustna´ chyba odhadu pro µ je

σ ∆ = zα/2 √ , n Pˇr´ıpustná chyba je rovna polovinˇe délky intervalu spolehlivosti. Obecnˇe, pˇr´ıpustn´ a chyba odhadu reprezentuje pˇresnost, které chceme dosáhnout pˇri odhadován´ı nˇejakého parametru. Pro odhad stˇredn´ı hodnoty µ je ilustrována na obrázku 6.2. Pˇr´ıpustná chyba odhadu se také naz´ yvá azek 6.2 Pˇr´ıpustn´ a chyba odhadu pro µ horn´ı mez chyby odhadu pro µ. Z defi- Obr´ nice 6.7 a definice 6.6 intervalu spolehlivosti ∆ ∆ pro µ vid´ıme, ˇze délka intervalu spolehlivosti je urˇcena pˇr´ıpustnou chybou ∆. Pˇr´ıpustná chyba odhadu je tedy zα/2 násobek stˇredn´ı x x − zα/2 √σn x + zα/2 √σn chyby odhadu µ, nebot’ σ 2 /n je rozptyl odhadu X. Délka intervalu spolehlivosti pro stˇredn´ı hodnotu µ a tud´ıˇz pˇresnost odhadu x¯ parametru µ je urˇcena pˇr´ıpustnou chybou odhadu ∆. Zmenˇsen´ı délky intervalu spolehlivosti a t´ım zvˇetˇsen´ı pˇresnosti odhadu µ vyˇzaduje pouze sn´ıˇzen´ı pˇr´ıpustné chyby odhadu. Vzhledem k tomu, ˇze se rozsah v´ ybˇeru n vyskytuje ve jmenovateli ve vzorci pro pˇr´ıpustnou chybu ∆, m˚ uˇzeme chybu ∆ sn´ıˇzit zvˇetˇsen´ım rozsahu v´ ybˇeru n. To dává smysl, nebot’ oˇcekáváme, ˇze z´ıskáme pˇresnˇejˇs´ı informace z v´ ybˇeru o vˇetˇs´ım rozsahu. Tud´ıˇz dostáváme následuj´ıc´ı kl´ıˇcov´ y poznatek. Tvrzen´ı 6.2

ˇ P Rˇ Í PUSTN A´ CHYBA A P RESNOST

ODHADU

µ

Délka intervalu spolehlivosti pro stˇredn´ı hodnotu µ a tud´ıˇz pˇresnost odhadu x¯ parametru µ je urˇcena pˇr´ıpustnou chybou odhadu ∆. Pro dan´ y koeficient spolehlivosti m˚ uˇzeme zv´ yˇsit pˇresnost odhadu zvˇetˇsen´ım rozsahu v´ ybˇeru n. Pˇr´ıpustná chyba ∆ a koeficient spolehlivosti 1 − α b´ yvaj´ı ˇcasto zadány pˇredem. Pak mus´ıme stanovit rozsah v´ ybˇeru, aby pˇredem stanovené poˇzadavky na pˇresnost a spolehlivost odhadu byly splnˇeny. Pro √ stanoven´ı minimáln´ıho rozsahu v´ ybˇeru lze pouˇz´ıt vzorec pro pˇr´ıpustnou chybu ∆ = zα/2 σ/ n. To vede ke vzorci 6.1. Vzorec 6.1

Rozsah výbˇeru pro odhad µ

Rozsah v´ ybˇeru pro 100(1−α)% interval spolehlivosti pro µ se zadanou pˇr´ıpustnou chybou ∆ je urˇcen vzorcem µ ¶ zα/2 σ 2 n= , ∆ kde n zaokrouhlujeme nahoru na nejbliˇzˇs´ı celé ˇc´ıslo.

88

6.5 I NTERVALY SPOLEHLIVOSTI PRO ST Rˇ EDNÍ HODNOTU

Pˇ r´ıklad 6.13 Ilustrace vzorce 6.1 ˇ byly sledovany ´ ´ ´ ´ U 30 nahodnˇ e vybraných domacnost´ ı v CR vydaje za spotˇrebované pohonné hmoty ´ ˚ erny´ vydaj ´ pro dopravn´ı prostˇredky, které domacnost vlastn´ı. Byl vypoˇcten prumˇ x ¯ = 1756.80 Kˇc za ´ ˚ ˚ muˇ ˚ zete udˇelat zavˇ ´ er, zˇe smˇerodatna´ odchylka mˇes´ıc. Pˇredpokladejte, zˇe z pˇredchoz´ıch pruzkum u ´ eru nutný k tomu, abychom mˇeli 95% spolehlivost, zˇe odhad µ je σ = 413 Kˇc. Urˇcete rozsah vybˇ leˇz´ı v intervalu (¯ x − 15, x ¯ + 15). ˇ sen´ı: Ze zadan´ ´ ı pˇr´ıkladu je zˇrejmé, zˇe ∆ = 15 Kˇc. Protoˇze 1 − α = 0.95, je α = 0.05. V tabulce Reˇ II.najdeme zα/2 = z0.025 = 1.96. Tud´ızˇ poˇzadovaný rozsah vy´ bˇeru je n=

³z

α/2

∆

· σ ´2

µ =

1.96 · 413 15

¶2 = 2912.26

´ kladné celé cˇ´ıslo, dostaneme n = 2913. Jestliˇze vybereme nahodnˇ ´ Protoˇze rozsah vy´ bˇeru mus´ı byt e ´ ´ ˚ zeme na 95% 2913 udaj u˚ o mˇes´ıcˇ n´ıch vydaj´ ıch za pohonné hmoty pro automobily, pak se muˇ ´ ˚ za pohonné hmoty pro automobily ve vˇsech domacnostech ´ spolehnout, zˇe stˇredn´ı hodnota µ vydaj u ˚ er vy´ daju ˚ za pohonné hmoty ve vybranych ´ leˇz´ı v intervalu (¯ x − 15, x ¯ + 15), kde x ¯ je prumˇ 2913 ´ domacnostech.

6.5.2

Intervaly spolehlivosti pro stˇ redn´ı hodnotu pˇ ri nezn´ am´ e smˇ erodatn´ e odchylce

V praxi vˇetˇsinou smˇerodatnou odchylku σ neznáme. Pak ovˇsem postup pro sestrojen´ı inter√ valu spolehlivosti nem˚ uˇze b´ yt zaloˇzen na statistice Z = X−µ n. V tomto pˇr´ıpadˇe pouˇzijeme σ X−µ √ k sestrojen´ı intervalu spolehlivosti t-statistiku T = S n, která má t-rozdˇelen´ı s n − 1 stupni volnosti za pˇredpokladu, ˇze máme náhodn´ y v´ ybˇer z normáln´ıho rozdˇelen´ı se stˇredn´ı hodnotou µ (viz. tvrzen´ı 5.4). Obdobn´ ym zp˚ usobem jako v pˇr´ıpadˇe známého rozptylu bychom stanovili krajn´ı body intervalu spolehlivosti pro µ. Uvedeme pouze postup pro sestrojen´ı intervalu spolehlivosti pro stˇredn´ı hodnotu µ pˇri neznámém rozptylu σ 2 , kter´ y budeme naz´ yvat jednov´ ybˇ erov´ y t-interval nebo krátce t-interval pro µ. Postup 6.2

Jednovy´ bˇerovy´ t-interval pro µ

Pˇredpoklady a. Normáln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru n; b. Neznám´ y rozptyl σ 2 . 1. Pro koeficient spolehlivosti 1 − α, najdˇete hodnotu tα/2 v tabulce III. 2. Interval spolehlivosti pro µ je Ã

!

s s x¯ − tα/2 √ , x¯ + tα/2 √ , n n

kde tα/2 je hodnota, urˇcená v 1. kroku, n je rozsah v´ ybˇeru a x¯ a s jsou vypoˇcteny z uvaˇzované realizace náhodného v´ ybˇeru. V pˇr´ıpadˇe v´ ybˇeru z normáln´ıho rozdˇelen´ı je koeficient spolehlivosti pˇresnˇe roven 1 − α, v pˇr´ıpadˇe v´ ybˇeru o velkém rozsahu z jiného neˇz normáln´ıho rozdˇelen´ı je koeficient spolehlivosti pˇribliˇznˇe roven 1 − α. 89

K APITOLA 6


Aˇckoliv t-interval byl odvozen na základˇe pˇredpokladu, ˇze jde o v´ ybˇer z normáln´ıho rozdˇelen´ı, aplikuje se i v pˇr´ıpadˇe náhodn´ ych v´ ybˇer˚ u velkého rozsahu z rozdˇelen´ı jin´ ych neˇz normáln´ıch. Podobnˇe jako v pˇr´ıpadˇe z-interval˚ u i t-intervaly pracuj´ı dobˇre pro malé nebo stˇrednˇe malé v´ ybˇery z jin´ ych neˇz normáln´ıch rozdˇelen´ı. Jin´ ymi slovy, postup pro sestrojen´ı t-intervalu je robustn´ı v˚ uˇci mal´ ym odchylkám od pˇredpokladu normality. Pˇri u ´vahách o sestrojen´ı tintervalu pro parametr µ je také d˚ uleˇzité sledovat odlehlá pozorován´ı. Pˇr´ıtomnost odlehl´ ych pozorován´ı se t´ yká pˇredpokladu normality. Dokonce pro velké rozsahy v´ ybˇeru, odlehlá pozorován´ı mohou nˇekdy znaˇcnˇe ovlivnit t-interval, nebot’ v´ ybˇerov´ y pr˚ umˇer a v´ ybˇerová smˇerodatná odchylka nejsou rezistentn´ı v˚ uˇci odlehl´ ym pozorován´ım. Pˇripomeˇ nme, ˇze stejnˇe jako pˇri sestrojován´ı z-intervalu je tˇreba udˇelat pˇredbˇeˇznou anal´ yzu, abychom si byli jisti, ˇze m˚ uˇzeme postup pouˇz´ıt. Pˇ r´ıklad 6.14 Ilustrace postupu 6.2 ´ zˇr´ızeno nové vlakové spojen´ı mezi Prahou a Ostravou. V prubˇ ˚ ehu jednoho roku byl Ma´ byt ´ ´ poˇcet cestuj´ıc´ıch na trase Praha - Ostrava. Ze 30 shromaˇ ´ zdˇenych ´ v nahodnˇ e vybrané dny zjiˇst’ovan ˚ er x ´ erova´ smˇerodatna´ odchylka s = 30. Urˇcete dat byly vypoˇcteny aritmeticky´ prumˇ ¯ = 450 a vybˇ 99% interval spolehlivosti pro stˇredn´ı hodnotu poˇctu cestuj´ıc´ıch. ˇ sen´ı: Pˇredpoklady pro pouˇzit´ı postupu 6.2 jsou splnˇeny, nebot’ n = 30. Reˇ ´ 1. Zadany´ koeficient spolehlivosti je 0.99 = 1 − 0.01, takˇze α = 0.01. Protoˇze n = 30, mame ν = n − 1 = 30 − 1 = 29. Z tabulky III.zjist´ıme, zˇe pro ν = 29 je tα/2 = t0.01/2 = t0.005 = 2.756. ´ 2. Je zadano x ¯ = 450, s = 30, n = 30 a v 1.kroku jsme urˇcili tα/2 = 2.756. Tud´ızˇ 99% interval spolehlivosti pro µ je µ ¶ 30 30 450 − 2.756. √ , 450 + 2.756. √ , 30 30 ˚ zeme tedy s 99% spolehlivost´ı rˇ´ıci, zˇe stˇredn´ıho hodnota poˇctu neboli interval (434.90, 465.09). Muˇ cestuj´ıc´ıch na trati Praha - Ostrava je mezi 434 a 465.

6.6

Intervaly spolehlivosti pro rozptyl

Pˇredpokládejme, ˇze máme náhodn´ y v´ ybˇer o rozsahu n z normáln´ıho rozdˇelen´ı s rozptylem σ 2 . Podle tvrzen´ı 5.3 má náhodná veliˇcina χ2 =

n−1 2 ·S σ2

(6.24)

χ2 -rozdˇelen´ı s n − 1 stupni volnosti. Vzhledem k tomu plat´ı pro náhodnou veliˇcinu χ2 P (χ21−α/2 < χ2 < χ2α/2 ) = 1 − α. Z toho plyne, ˇze pro pozorovanou hodnotu s2 náhodné veliˇciny S 2 plat´ı P (χ21−α/2 <

n−1 2 s < χ2α/2 ) = 1 − α. 2 σ

(6.25)

Pomoc´ı algebraick´ ych operac´ı pˇrep´ıˇseme rovnici na tvar 



n − 1 2 n−1 · s = 1 − α. P  2 · s2 < σ 2 < 2 χα/2 χ1−α/2 90

(6.26)

6.6 I NTERVALY SPOLEHLIVOSTI PRO ROZPTYL

Z rovnice (6.26) je vidˇet, ˇze jakmile máme k dispozici pozorované hodnoty náhodného v´ ybˇeru, interval   (n − 1) (n − 1)  · s2 , 2 · s2  (6.27) χ2α/2 χ1−α/2 je 100(1−α)% intervalem spolehlivosti pro σ 2 . Interval nen´ı symetrick´ y. Interval spolehlivosti pro rozptyl nazveme χ2 -interval pro rozptyl σ 2 . Postup 6.3

χ2 -interval pro rozptyl σ 2

Pˇredpoklady Normáln´ı rozdˇelen´ı 1. Pro koeficient spolehlivosti 1−α, najdˇete χ21−α/2 a χ2α/2 pro n−1 stupˇ n˚ u volnosti v tabulce 2 IV. kritick´ ych hodnot χ -rozdˇelen´ı. 2. Interval spolehlivosti pro σ 2 je 



(n − 1) 2 (n − 1) 2   ·s , 2 ·s , χ2α/2 χ1−α/2 kde χ21−α/2 a χ2α/2 jsou urˇceny v kroku 1, n je rozsah v´ ybˇeru a s2 je vypoˇctena ze zkoumané realizace náhodného v´ ybˇeru. Podobnˇe jako postupy pro sestrojen´ı z-intervalu a t-intervalu, postup pro sestrojen´ı χ2 intervalu nen´ı obecnˇe robustn´ı v˚ uˇci odchylkám od pˇredpokladu normality. Pouˇzit´ı pro jiná neˇz normáln´ı data by mohlo vést k myln´ ym informac´ım. Pˇredchoz´ı anal´ yza dat je rovnˇeˇz nutná. Pˇ r´ıklad 6.15 Ilustrace postupu 6.3 ´ e se vyrab´ ´ ı sˇ rouby o prumˇ ˚ eru 10mm. Bylo nahodnˇ ´ ´ ˚ peˇclivˇe zjiˇstˇeny jeV tovarnˇ e vybrano 12 sˇ roubu, ˚ ery (prumˇ ˚ er ve smyslu specifikace sˇ roubu ˚ podle velikosti hlaviˇcky) a vypoˇctena vybˇ ´ erova´ jich prumˇ smˇerodatna´ odchylka s = 0.047mm. Sestrojte 95% interval spolehlivosti pro smˇerodatnou od˚ eru ˚ vˇsech 10mm sˇ roubu ˚ vyrabˇ ´ enych ´ ´ e za pˇredpokladu, zˇ e rozdˇelen´ı chylku σ prumˇ v tovarnˇ ˚ eru˚ sˇ roubu ˚ je normaln´ ´ ı. prumˇ ˇ sen´ı: Pˇredpoklady pro pouˇzit´ı postupu 6.3 jsou splnˇeny. Reˇ ´ zˇ e α = 0.05. Jelikoˇz n = 12, ν = 12 −1 = 11. 1. Koeficient spolehlivosti je 0.95 = 1 −0.05. To znamena, Z tabulky IV.nalezneme hodnoty χ21−α/2 = χ21−0.05/2 = χ20.975 = 3.816; χ2α/2 = χ20.05/2 = χ20.025 = 21.920. ´ ı pˇr´ıkladu v´ıme, zˇe n = 12, s = 0.047 a z 1. kroku zjiˇstˇené hodnoty χ21−α/2 = 3.816 2. Ze zadan´ 2 a χα/2 = 21.920. Tud´ızˇ 95% interval spolehlivosti pro σ je Ãr

(12 − 1) 0.047, 21.920

r

! (12 − 1) 0.047 3.816

˚ o nebo (0.033, 0.080). Takˇze 95% interval spolehlivosti pro smˇerodatnou odchylku σ vˇsech sˇ roubu ˚ eru 10mm vyrobených v tovarnˇ ´ e je (0.033, 0.080). prumˇ

91

K APITOLA 6

6.7


Intervaly spolehlivosti pro pod´ıl

Pˇredpokládejme, ˇze máme náhodn´ y v´ ybˇer o rozsahu n ze základn´ıho souboru s pod´ılem p nebo ekvivalentnˇe z alternativn´ıho rozdˇelen´ı s parametrem p. Nestrann´ y odhad pod´ılu p, ze kterého vyjdeme pˇri konstrukci intervalu spolehlivosti je v´ ybˇerov´ y pod´ıl pˆ, diskutovan´ y v odstavci 5.3.3. Jak bylo ve v´ yˇse zm´ınˇ e n´ e m odstavci uk´ a z´ a no, z tvrzen´ ı 5.4 plyne, ˇze q normovaná náhodná veliˇcina Z = (ˆ p − p)/ p(1 − p)/n má pˇribliˇznˇe normované normáln´ı rozdˇelen´ı. Tud´ıˇz pro Z plat´ı P (−zα/2 < Z < zα/2 ) = 1 − α.

(6.28)

Z (6.28) plyne, ˇze pro pozorovanou hodnotu pˆ plat´ı µ

q

q

P p − zα/2 ·

pˆ(1 − pˆ)/n < pˆ < p + zα/2 ·

¶

pˆ(1 − pˆ)/n = 1 − α.

(6.29)

Pomoc´ı algebraick´ ych operac´ı pˇrep´ıˇseme rovnici na tvar µ

q

P pˆ − zα/2 ·

q

pˆ(1 − pˆ)/n < p < pˆ + zα/2 ·

¶

pˆ(1 − pˆ)/n = 1 − α.

(6.30)

Z rovnice (6.30) je vidˇet, ˇze jakmile máme k dispozici pozorované hodnoty náhodného v´ ybˇeru, interval µ ¶ q q pˆ − zα/2 · pˆ(1 − pˆ)/n , pˆ + zα/2 · pˆ(1 − pˆ)/n (6.31) je 100(1 − α)% intervalem spolehlivosti pro pod´ıl p. Interval spolehlivosti pro pod´ıl p základn´ıho souboru nebo parametr p alternatvn´ıho rozdˇelen´ı nazveme jednov´ ybˇ erov´ y z-interval nebo krátce z-interval pro p. Postup 6.4

Jednovy´ bˇerovy´ z-interval pro pod´ıl p

Pˇredpoklady Poˇcet u ´spˇech˚ u x a poˇcet ne´ uspˇech˚ u n − x je roven alespoˇ n 5 (min(x, n − x) ≥ 5.). 1. Pro koeficient spolehlivosti 1 − α, najdˇete zα/2 v tabulce II. 2. Interval spolehlivosti pro p je µ

q

q

¶

pˆ − zα/2 pˆ(1 − pˆ)/n, pˆ + zα/2 pˆ(1 − pˆ)/n , kde n je rozsah v´ ybˇeru a pˆ = x/n je v´ ybˇerov´ y pod´ıl vypoˇcten´ y ze zkoumané realizace náhodného v´ ybˇeru.

Pˇ r´ıklad 6.16 Ilustrace postupu 6.4 ˇ bylo 50 tˇech, které jsou vybaveny osobn´ım ´ ´ ´ Mezi nahodnˇ e vybranymi 1000 domacnostmi CR ´ ´ poˇc´ıtaˇcem. Sestrojte 99% interval spolehlivosti pro pod´ıl poˇctu domacnost´ ı vybavenych osobn´ım poˇc´ıtaˇcem. ˇ sen´ı: Nejprve se pˇresvˇedˇc´ıme, zda je splnˇena podm´ınka pro pouˇzit´ı tohoto postupu. Rozsah Reˇ ´ eru je n = 1000, poˇcet PC je x = 50 a 1000 − 50 = 950, tud´ızˇ jak x a n − x jsou vˇetˇs´ı neˇz 5. vybˇ

92

6.7 I NTERVALY SPOLEHLIVOSTI PRO PODÍ L ´ zˇe α = 0.01 a odtud zα/2 = z0.01/2 = z0.005 = 2.58. 1. Koeficient spolehlivisti je 0.99, to znamena, ´ ´ pˆ = x/n = 50/1000 = 0.05. 2. Je zadano n = 1000, v 1. kroku byla zjiˇstˇena hodnota z0.005 = 2.58. Dale ˚ zeme jiˇz stanovit 99% interval spolehlivosti pro p Muˇ ³ ´ p p 0.05 − 2.58 0.05(1 − 0.05)/1000, 0.05 + 2.58 0.05(1 − 0.05)/1000 , ˇ mezi 3.3% a 6.7%. ´ neboli (0.033, 0.067). S 99% spolehlivost´ı je pod´ıl domacnost´ ı vybaveny´ ch PC v CR

Urˇ cen´ı rozsahu v´ ybˇ eru pro odhad pod´ılu p Podobnˇe jako v pˇr´ıpadˇe odhadu stˇredn´ı hodnoty µ definujeme pˇr´ıpustnou chybu odhadu pod´ılu p. Definice 6.8

P Rˇ Í PUSTN A´ CHYBA ODHADU POD Í LU p

Pˇr´ıpustna´ chyba odhadu pod´ılu p je q

∆ = zα/2 pˆ(1 − pˆ)/n. Pˇr´ıpustná chyba je rovna polovinˇe délky intervalu spolehlivosti. Pˇr´ıpustná chyba reprezentuje pˇresnost s jakou v´ ybˇerov´ y pod´ıl pˆ odhaduje pod´ıl p základn´ıho souboru pˇri daném koeficientu spolehlivosti. q

V pˇr´ıkladu 6.16 je pˇr´ıpustná chyba odhadu ∆ = 2.58 0.05(1 − 0.05)/1000 = 0.017, kterou bychom také urˇcili z délky intervalu spolehlivosti (0.067 − 0.033)/2 = 0.017. Ze znalosti intervalu spolehlivosti m˚ uˇzeme urˇcit pˇr´ıpustnou chybu vydˇelen´ım délky intervalu dvˇema. Naopak, ze znalosti v´ ybˇerového pod´ılu pˆ a pˇr´ıpustné chyby odhadu m˚ uˇzeme stanovit interval spolehlivosti, jeho krajn´ı body jsou pˆ ± ∆. Pˇr´ıpustná chyba odhadu a koeficient spolehlivosti pro interval spolehlivosti b´ yvaj´ı zadány pˇredem. Mus´ıme pak urˇcit rozsah v´ ybˇeru nutn´ y ke splnˇen´ı pˇredepsan´ ych poˇzadavk˚ u na odhad. Z definice 6.8 plyne pro rozsah v´ ybˇeru µ

n = pˆ(1 − pˆ)

zα/2 ∆

¶2

.

(6.32)

Vzorec 6.32 nem˚ uˇzeme pouˇz´ıt k urˇcen´ı poˇzadovaného rozsahu v´ ybˇeru, protoˇze v´ ybˇerov´ y pod´ıl pˆ neznáme dokud nemáme k dispozici v´ ybˇer. Vzhledem k tomu, ˇze nejvˇetˇs´ı moˇzná hodnota pˆ(1 − pˆ) je rovna 0.25, nejˇcastˇeji pouˇz´ıvan´ y pˇr´ıstup k urˇcen´ı rozsahu v´ ybˇeru je pouˇz´ıt tuto hodnotu v rovnici (6.32). Rozsah v´ ybˇeru takto z´ıskan´ y bude obecnˇe vˇetˇs´ı neˇz je nutné a pˇr´ıpustná chyba menˇs´ı neˇz poˇzadovaná. Na druhé stranˇe, jelikoˇz náklady na z´ıskán´ı v´ ybˇeru o vˇetˇs´ım rozsahu rostou, je vhodnˇejˇs´ı nevolit rozsah v´ ybˇeru vˇetˇs´ı, neˇz je nutné. Jestliˇze udˇeláme hrub´ y odhad pod´ılu p na základˇe pˇredchoz´ıch zkuˇsenost´ı nebo teoretick´ ych u ´vah, m˚ uˇzeme tento hrub´ y odhad pouˇz´ıt k z´ıskán´ı realistického rozsahu v´ ybˇeru. Vzhledem k hodnotám, kter´ ych m˚ uˇze nab´ yvat pˆ, je zˇrejmé, ˇze náˇs hrub´ y odhad by mˇel b´ yt bl´ızko 0.5 V kaˇzdém pˇr´ıpadˇe si mus´ıme b´ yt vˇedomi toho, ˇze kdyˇz pozorovaná hodnota pˆ se liˇs´ı od 0.5 o ménˇe neˇz náˇs hrub´ y odhad pod´ılu p, pak pˇr´ıpustná chyba bude vˇetˇs´ı neˇz poˇzadovaná. 93

K APITOLA 6


Vzorec 6.2

Rozsah výbˇeru pro odhad pod´ılu p

100(1 − α)%-interval spolehlivosti pro pod´ıl s pˇr´ıpustnou chybou nejv´ yˇse rovnou ∆ z´ıskáme, zvol´ıme-li rozsah v´ ybˇeru µ

zα/2 n = 0.25 ∆

¶2

,

zaokrouhlen´ y nahoru na nejbliˇzˇs´ı celé ˇc´ıslo. Jestliˇze na základˇe pˇredchoz´ıch znalost´ı zvol´ıme hodnotu pˆg za odhad pod´ılu pˆ, pak m˚ uˇzeme zvolit rozsah v´ ybˇeru µ

zα/2 n = pˆg (1 − pˆg ) ∆

¶2

,

zaokrouhlen´ y nahoru na nejbliˇzˇs´ı celé ˇc´ıslo. Pˇ r´ıklad 6.17 Ilustrace vzorce 6.2 ˇ ˚ Byl proveden pruzkum mezi zamˇestnanými obˇcany CR, zda pouˇz´ıvaj´ı osobn´ı automobil k cestˇe ´ ı. do zamˇestnan´ ´ eru nutny´ k tomu, aby pˇr´ıpustna´ chyba byla nejvýsˇ e 0.01 pro 95% interval a ) Urˇcete rozsah vybˇ spolehlivosti. ´ eru urˇceny´ v cˇ asti ´ b ) Urˇcete 95% interval spolehlivosti pro pod´ıl p, jestliˇze pro rozsah vybˇ a) je pod´ıl tˇech, kteˇr´ı pouˇz´ıvaj´ı osobn´ı automobil, roven 0.194. ´ c ) Urˇcete pˇr´ıpustnou chybu odhadu urˇceného v cˇ asti b) a porovnejte ji s pˇr´ıpustnou chybou ´ zadanou v cˇ asti a). ˇ sen´ı: Reˇ a ) Nejprve pouˇzijeme prvn´ı rovnici ve vzorci 6.2 K tomu mus´ıme urˇcit zα/2 . Je stanovena ´ eru pˇr´ıpustna´ chyba ∆ = 0.01. Koeficient spolehlivosti je 0.95, tud´ızˇ z0.025 = 1.96. Rozsah vybˇ nutný k tomu, aby pˇr´ıpustna´ chyba byla 0.01 pro 95% interval spolehlivosti je µ n = 0.25 ·

1.96 0.01

¶2 = 9604.

ˇ pak pˇr´ıpustna´ chyba naˇseho odhadu ´ ˚ CR, Vybereme-li nahodnˇ e 9604 zamˇestnaných obˇcanu ´ ´ ı, bude nejvýsˇ e pod´ılu zamˇestnanych, kteˇr´ı pouˇz´ıvaj´ı osobn´ı automobil k cestˇe do zamˇestnan´ 0.01. b ) Aplikac´ı postupu 6.4 pro α = 0.05, n = 9604 a pˆ = 0.194 nalezneme, zˇe 95% interval spolehlivosti ma´ krajn´ı body 0.194 ± 0.008. ´ ´ zˇe je to ménˇe, neˇz c ) Pˇr´ıpustna´ chyba odhadu urˇcena´ v cˇ asti b ) je 0.008. Nepˇrekvapuje nas, ´ pˇr´ıpustna´ chyba zadana´ v cˇ asti a ).

94

Kapitola 7 Z´ aklady testov´ an´ı statistick´ ych hypot´ ez V kapitole 6 jsme se zab´ yvali metodami bodov´ ych a intervalov´ ych odhad˚ u parametr˚ u rozdˇelen´ı pravdˇepodobnost´ı, zaloˇzen´ ymi na v´ ybˇerov´ ych statistikách. V této kapitole se budeme zab´ yvat ˇreˇsen´ım otázky, jak pouˇz´ıt v´ ybˇerovou statistiku k rozhodnut´ı, ˇze náˇs pˇredpoklad o hodnotˇe parametru rozdˇelen´ı, je správn´ y. Napˇr´ıklad, chceme pouˇz´ıt pr˚ umˇernou délku trestu náhodného v´ ybˇeru osob odsouzen´ ych za prodej drog v loˇ nském roce k rozhodnut´ı, ˇze loˇ nská pr˚ umˇerná délka trestu vˇsech osob odsouzen´ ych za uveden´ y zloˇcin je vyˇsˇs´ı neˇz pr˚ umˇerná délka trestu v roce 1990. Statistické závˇery tohoto druhu se naz´ yvaj´ı testy hypotéz. V této kapitole se budeme zab´ yvat metodami testován´ı hypotéz o stˇredn´ı hodnotˇe, rozptylu a pod´ılu a o tvaru rozdˇelen´ı zkoumaného znaku. Budeme uvaˇzovat klasick´ y pˇr´ıstup a pˇr´ıstup s pouˇzit´ım P -hodnoty k testován´ı hypotéz.

7.1

Podstata testov´ an´ı hypot´ ez

ˇ Casto pouˇz´ıváme inferenˇcn´ı statistiku k tomu, abychom udˇelali rozhodnut´ı o hodnotˇe urˇcitého parametru nebo tvaru rozdˇelen´ı zkoumaného statistického znaku. Napˇr´ıklad máme rozhodˇ nout, zda pr˚ umˇerná spotˇreba benzinu na 100 ujet´ ych kilometr˚ u vˇsech voz˚ u znaˇcky Skoda, se liˇs´ı od spotˇreby udávané v´ yrobcem. Jednou z nejˇcastˇeji pouˇz´ıvan´ ych metod pro stanoven´ı takov´ ych rozhodnut´ı nebo závˇer˚ u, je test hypot´ ezy. Hypot´ ezou se pak rozum´ı tvrzen´ı, ˇze nˇeco je správné. Tvrzen´ı, ˇze ˇ pr˚ umˇerná spotˇreba benzinu na 100 ujet´ ych kilometr˚ u vˇsech voz˚ u znaˇcky Skoda, se liˇs´ı ” od spotˇreby udávané v´ yrobcem“ je hypotéza. Test hypotézy zahrnuje dvˇe hypotézy. Jedna se naz´ yvá nulov´ a hypot´ eza (nˇekdy také testovan´ a hypot´ eza), druhá alternativn´ı hypot´ eza. Definice 7.1

´ , N ULOV A´ HYPOT EZA

´ ZA ALTERNATIVN Í HYPOT E

Nulova´ hypoteza H0 : Hypot´ eza, která je testovaná. ´ Alternativn´ı hypoteza HA : Hypot´ eza, která je uvaˇzovaná jako alternativa k nulové hy´

potéze, nˇejak´ ym zp˚ usobem pop´ırá vlastnost vyslovené nulové hypotézy. ˇ V ilustraˇcn´ım pˇr´ıkladu s automobily Skoda nulovou hypotézou m˚ uˇze b´ yt tvrzen´ı pr˚ umˇerná ” ˇ spotˇreba benzinu na 100 ujet´ ych kilometr˚ u vˇsech voz˚ u znaˇcky Skoda, je shodná se spotˇrebou 95

K APITOLA 7

´ ´ Í STATISTICK YCH ´ ´Z Z AKLADY TESTOV AN HYPOT E

udávanou v´ yrobcem“ a alternativn´ı hypotézou tvrzen´ı pr˚ umˇerná spotˇreba benzinu na 100 ” ˇ ujet´ ych kilometr˚ u vˇsech voz˚ u znaˇcky Skoda, se liˇs´ı od spotˇreby udávané v´ yrobcem“. Problém ˇreˇsen´ y pˇri testu hypotézy je rozhodnout, zda zam´ıtnout nebo nezam´ıtnout nulovou hypotézu ve prospˇech alternativn´ı hypotézy.

7.1.1

Formulace hypot´ ez

Budeme se zab´ yvat nejprve testem hypotézy, kdy nulová i alternativn´ı hypotéza se t´ ykaj´ı parametru θ rozdˇelen´ı sledovaného statistického znaku. Nulov´ a hypot´ eza: Bˇeˇzné pojet´ı testován´ı hypotéz tak, jak je zde vykládáno, vyˇzaduje, aby nulová hypotéza byla jednoduch´ a, to je jednoznaˇcnˇe specifikovala jedinou hodnotu pro tento parametr. M˚ uˇzeme tedy nulovou hypotézu struˇcnˇe vyjádˇrit jako H0 :

θ = θ0 ,

(7.1)

kde θ0 je nˇejaké ˇc´ıslo. Alternativn´ı hypot´ eza: Vymezen´ı alternativn´ı hypotézy by mˇelo odráˇzet, jak´ ym zp˚ usobem pop´ırá vlastnost vyslovené nulové hypotézy. Proti v´ yˇse uvedené nulové hypotéze m˚ uˇzeme vymezit tˇri alternativn´ı hypotézy. 1. Jestliˇze alternativn´ı hypotéza pop´ırá platnost nulové hypotézy H0 bez dalˇs´ı specifikace oboru hodnot parametru, jinak ˇreˇceno stanov´ı, ˇze parametr θ je r˚ uzný od θ0 , pak takovou alternativn´ı hypotézu vyjádˇr´ıme jako HA : θ 6= θ0 .

(7.2)

Test hypotézy, jehoˇz alternativn´ı hypotéza má tento tvar se naz´ yvá dvoustrann´ ym testem. 2. Jestliˇze alternativn´ı hypotéza stanov´ı, ˇze parametr θ je menˇs´ı neˇz θ0 , pak takovou alternativn´ı hypotézu vyjádˇr´ıme jako HA : θ < θ 0 .

(7.3)

Test hypotézy s takto formulovanou alternativn´ı hypotézou se naz´ yvá levostrann´ ym testem. 3. Jestliˇze alternativn´ı hypotéza stanov´ı, ˇze parametr θ je vˇetˇs´ı neˇz θ0 , pak takovou alternativn´ı hypotézu vyjádˇr´ıme jako HA : θ > θ 0 .

(7.4)

Takto formulovaná alternativn´ı hypotéza se naz´ yvá pravostrann´ a alternativa a test hypotézy s takto formulovanou alternativn´ı hypotézou se naz´ yvá pravostrann´ ym testem. Test hypotézy se naz´ yvá jednostrann´ ym testem , jestliˇze je bud’ levostrann´ y nebo pravostrann´ y, to je nen´ı-li dvoustrann´ y. 96

´ Í POJMY A TERMINOLOGIE 7.2 Z AKLADN

7.1.2

Volba testov´ eho kriteria

Seznámili jsme se s t´ım, jak vhodnˇe vymezit nulovou a alternativn´ı hypotézu. Dalˇs´ı otázkou je, jak rozhodnout, která z obou hypotéz je správná, to znamená, jak rozhodnout, zda nulovou hypotézu zam´ıtneme nebo nezam´ıtneme ve prospˇech alternativn´ı hypotézy? Pˇri ˇreˇsen´ı praktick´ ych u ´loh mus´ıme m´ıt pˇresné kriterium, na jehoˇz základˇe udˇeláme rozhodnut´ı, zda uvaˇzovaná nulová hypotéza je správná. Testové kriterium je statistika, tedy funkce v´ ybˇeru. V´ ypoˇcet jej´ı hodnoty je pˇri testován´ı hypotéz c´ılem zpracován´ı v´ ybˇerového souboru. Jak pozdˇeji uvid´ıme, mus´ıme znát rozdˇelen´ı testové statistiky za platnosti nulové hypotézy, abychom mohli provést dalˇs´ı etapu testován´ı a to sestrojen´ı oboru hodnot testové statistiky, které nás opravˇ nuj´ı zam´ıtnout hypotézu.

7.2

Z´ akladn´ı pojmy a terminologie

Abychom zcela pochopili problematiku testován´ı hypotéz, potˇrebujeme se seznámit s dalˇs´ımi pojmy a terminologi´ı. V tomto odstavci uvedeme definice dalˇs´ıch pojm˚ u pouˇz´ıvan´ ych pˇri testován´ı hypotéz, budeme diskutovat dva základn´ı typy chyb, kter´ ych se m˚ uˇzeme dopustit pˇri testu hypotézy a budeme interpretovat moˇzné závˇery testu hypotézy.

7.2.1

Testov´ a statistika, obor pˇ rijet´ı, obor zam´ıtnut´ı, kritick´ e hodnoty

Jako základ pro rozhodnut´ı, zda zam´ıtneme nulovou hypotézu ve prospˇech alternativn´ı hypotézy, pouˇzijeme statistiku, kterou naz´ yváme testovou statistikou pro test hypotézy. Obor hodnot, kter´ ych statistika m˚ uˇze nab´ yt, rozdˇel´ıme na dva disjunktn´ı obory, na obor zam´ıtnut´ı neboli kritick´ y obor a na obor pˇ rijet´ı. Hodnoty testové statistiky, které oddˇeluj´ı obor pˇrijet´ı od oboru zam´ıtnut´ı se naz´ yvaj´ı kritick´ e hodnoty. Jestliˇze hodnota testové statistiky vypoˇctená z v´ ybˇerov´ ych hodnot, padne do kritického oboru, zam´ıtáme testovanou hypotézu. Jestliˇze hodnota testové statistiky vypoˇctená z v´ ybˇerov´ ych hodnot, nepadne do kritického oboru, testovanou hypotézu nezam´ıtáme. Terminologie zavedená v této ˇca´sti je shrnuta do následuj´ıc´ı definice. Definice 7.2

T ESTOV A´ STATISTIKA , KRITICK Y´ OBOR ,

´ HODNOTY KRITICK E

Testova´ statistika: Statistika pouˇ zitá jako základ pro rozhodnut´ı, zda nulová hypotéza

by mˇela b´ yt zam´ıtnuta. Obor zam´ıtnut´ı (kriticky´ obor): Mnoˇ zina hodnot testové statistiky, která vede k zam´ıtnut´ı

hypotézy. Obor pˇrijet´ı: Mnoˇ zina hodnot testové statistiky, která vede k pˇrijet´ı hypotézy. Kriticke´ hodnoty: Hodnoty testov´ e statistiky, které oddˇeluj´ı obor pˇrijet´ı od oboru

zam´ıtnut´ı.

7.2.2

Chyba prvn´ıho a druh´ eho druhu

Protoˇze pˇri testován´ı hypotéz jde o u ´sudek provádˇen´ y na základˇe u ´daj˚ u z´ıskan´ ych z v´ ybˇerového souboru, m˚ uˇzeme se ve sv´ ych u ´sudc´ıch dopustit i chybn´ ych závˇer˚ u. 97

K APITOLA 7


Pˇri testován´ı hypotézy jsou ˇctyˇri moˇzné v´ ysledky, dva z nich vedou k nesprávnému rozhodnut´ı. Nesprávné rozhodnut´ı udˇeláme, jestliˇze bud’ zam´ıtneme nulovou hypotézu H0 , aˇckoliv ve skuteˇcnosti je správná, nebo nesprávnou nulovou hypotézu nezam´ıtneme. Prvn´ı nesprávné rozhodnut´ı se naz´ yvá chyba prvn´ıho druhu a druhé chyba druh´ eho druhu. Nˇekdy budeme pouˇz´ıvat zkrácené oznaˇcen´ı chyba I. druhu a chyba II. druhu. Definice 7.3

C HYBA PRVN Í HO

´ HO DRUHU A DRUH E

Chyba prvn´ıho druhu: Chyby prvn´ıho druhu se dopust´ıme zam´ıtnut´ım nulov´ e hypotézy,

kdyˇz je ve skuteˇcnosti správná. Chyba druheho druhu: Chyby druh´ eho druhu se dopust´ıme pˇrijet´ım nulové hypotézy, ´

kdyˇz ve skuteˇcnosti nen´ı pravdivá. Pravdˇ epodobnosti chyb prvn´ıho a druh´ eho druhu Pravdˇepodobnost, ˇze se dopust´ıme chyby prvn´ıho druhu je pravdˇepodobnost zam´ıtnut´ı správné nulové hypotézy. Je to pravdˇepodobnost, ˇze testová statistika bude v oboru zam´ıtnut´ı, jestliˇze ve skuteˇcnosti nulová hypotéza je správná. Pravdˇepodobnost, ˇze se dopust´ıme chyby prvn´ıho druhu, se naz´ yvá hladina v´ yznamnosti testu hypotézy a oznaˇcujeme ji ˇreck´ ym p´ısmenem α. Definice 7.4

´ H LADINA V YZNAMNOSTI

Hladina vyznamnosti α testu hypotézy je definována jako pravdˇepodobnost, ˇze se do´

pust´ıme chyby prvn´ıho druhu. Pravdˇepodobnost, ˇze se dopust´ıme chyby druhého druhu je pravdˇepodobnost nezam´ıtnut´ı nesprávné nulové hypotézy. Jinak ˇreˇceno, je to pravdˇepodobnost, ˇze testová statistika bude v oboru pˇrijet´ı, jestliˇze ve skuteˇcnosti nulová hypotéza je nesprávná. Pravdˇepodobnost chyby II. druhu znaˇc´ıme p´ısmenem β. Pravdˇepodobnost 1 − β se naz´ yvá s´ıla testu. S´ıla testu vlastnˇe vyjadˇruje, s jakou pravdˇepodobnost´ı zam´ıtneme nulovou hypotézu H0 , plat´ı-li alternativn´ı hypotéza HA . Jin´ ymi slovy s´ıla testu udává pravdˇepodobnost, ˇze se nedopust´ıme chyby II. druhu. Ideáln´ı stav by nastal, kdyby obˇe chyby mˇely malou pravdˇepodobnost. Potom ˇsance, ˇze udˇeláme nesprávné rozhodnut´ı by byla malá bez ohledu na to, zda nulová hypotéza je správná nebo alternativn´ı hypotéza je správná. Je-li d˚ uleˇzité, abychom nezam´ıtli správnou nulovou hypotézu, pak bychom mˇeli zvolit malou hladinu v´ yznamnosti α. Mˇeli bychom vˇsak pˇri volbˇe hladiny v´ yznamnosti m´ıt na pamˇeti následuj´ıc´ı kl´ıˇcov´ y fakt. Vztah mezi pravdˇ epodobnostmi chyb prvn´ıho a druh´ eho druhu Pˇri pevném rozsahu v´ ybˇerového souboru plat´ı, ˇze ˇc´ım menˇs´ı je pravdˇepodobnost chyby prvn´ıho druhu, t´ım vˇetˇs´ı je pravdˇepodobnost chyby druhého druhu a naopak. Volbu hladiny v´ yznamnosti m˚ uˇze v praktick´ ych u ´lohách ovlivnit i pˇredstava o následc´ıch chyb obou druh˚ u. Chyby I. a II. druhu si m˚ uˇzeme ilustrovat na následuj´ıc´ım pˇr´ıkladu.

98

´ Í POJMY A TERMINOLOGIE 7.2 Z AKLADN

Pˇ r´ıklad 7.1 Ilustrace chyb I. a II. druhu Vˇzijte se do situace v jaké je letovy´ dispeˇcer na nˇejakém letiˇsti. Objev´ı-li se na monitoru maly´ ´ nepravidelny´ obrazec, ktery´ kˇr´ızˇ´ı drahu velkému dopravn´ımu letadlu, dispeˇcer se mus´ı rychle rozhodnout zda: ´ H0 : Jde pouze o nepatrnou poruchu na obrazovce a jinak je vˇse v poˇradku. ´ zka dopravn´ıho letadla s malym ´ soukromým sportovn´ım letadlem. HA : Hroz´ı sraˇ ´ pak muˇ ˚ ze vzniknout faleˇsný poplach, coˇz je chyba I.druhu s pravdˇepodobJestliˇze je H0 pravdiva, nost´ı oznaˇcovanou jako α. ´ pak muˇ ˚ ze doj´ıt k neˇstˇest´ı vlivem chyby II.druhu s pravdˇepodobnost´ı Jestliˇze je HA pravdiva, oznaˇcenou β.

7.2.3

Z´ avˇ ery pˇ ri testov´ an´ı hypot´ ez a jejich interpretace

Moˇ zn´ e z´ avˇ ery pˇ ri testov´ an´ı hypot´ ez • Jestliˇze nulová hypotéza je zam´ıtnuta, dˇeláme závˇer, ˇze alternativn´ı hypotéza je pravdivá. • Jestliˇze nulová hypotéza nen´ı zam´ıtnuta, dˇeláme závˇer, ˇze data nám neposkytla dostatek podklad˚ u k podpoˇre alternativn´ı hypotézy. Kdyˇz je nulová hypotéza zam´ıtnuta na hladinˇe v´ yznamnosti α, pouˇz´ıváme ˇcasto k vyjádˇren´ı této skuteˇcnosti frázi: V´ ysledky testu jsou statisticky v´ yznamn´ e na hladinˇe v´ yznamnosti ” α.“ Podobnˇe, kdyˇz nulová hypotéza nen´ı zam´ıtnuta na hladinˇe v´ yznamnosti α, pouˇz´ıváme frázi: V´ ysledky testu jsou statisticky nev´ yznamn´ e na hladinˇe v´ yznamnosti α.“ ” Tabulka 7.1 Výsledky testu hypotéz Rozhodnut´ı

7.2.4

Skuteˇcnost H0 je pravdivá

H0 se nezam´ıt´ a správné rozhodnut´ı pravdˇepodobnost= 1 − α

H0 se zam´ıt´ a chyba I. druhu pravdˇepodobnost= α

H0 je nepravdivá

chyba II. druhu pravdˇepodobnost= β

správné rozhodnut´ı pravdˇepodobnost= 1 − β

Kritick´ y obor pro zadanou hladinu v´ yznamnosti

Nyn´ı se budeme zab´ yvat problémem, jak stanovit kritické hodnoty (kritickou hodnotu) pro test hypotézy, kdyˇz hladina v´ yznamnosti α je pˇredem zadaná. Pˇripomeˇ nme, ˇze hladina v´ yznamnosti α testu hypotézy je pravdˇepodobnost, ˇze se dopust´ıme chyby I.druhu, to je, ˇze zam´ıtneme pravdivou nulovou hypotézu. Ekvivalentnˇe, α je pravdˇepodobnost, ˇze hodnota testové statistiky bude v oboru zam´ıtnut´ı, jestliˇze ve skuteˇcnosti nulová hypotéza je správná. Tud´ıˇz pro kaˇzd´ y test hypotézy plat´ı následuj´ıc´ı tvrzen´ı. 99

K APITOLA 7

Tvrzen´ı 7.1


K RITICK E´ HODNOTY

´ PRO ZADANOU HLADINU V YZNAMNOSTI

Pˇredpokládejme, ˇze testujeme hypotézu na zadané hladinˇe v´ yznamnosti α. Pak kritické hodnoty mus´ı b´ yt vybrány tak, aby za platnosti nulové hypotézy, pravdˇepodobnost, ˇze testová statistika bude v oboru zam´ıtnut´ı, byla rovna α.

7.2.5

Formulace procesu testov´ an´ı hypot´ ez

Zat´ım jsme se omezili na vysvˇetlen´ı podstaty testu hypotézy a jednotliv´ ych pojm˚ u. Nyn´ı matematicky zformulujeme proces testován´ı hypotéz. Mˇejme náhodn´ y v´ ybˇer X = (X1 , X2 , · · · , Xn ) a testujme hypotézu H0 proti alternativˇe HA na hladinˇe v´ yznamnosti α. K testován´ı hypotézy pouˇzijeme statistiku T (X) zaloˇzenou na náhodném v´ ybˇeru X. Necht’ T (x) je hodnota testové statistiky pˇri dané realizaci x = (x1 , x2 , · · · , xn ) náhodného v´ ybˇeru. Mnoˇzinu hodnot, kter´ ych m˚ uˇze testová statistika nab´ yt, naz´ yváme v´ ybˇerov´ y prostor a oznaˇcujeme V (viz odstavec 5.1). Obor zam´ıtnut´ı Wα nulové hypotézy H0 pro danou hladinu v´ yznamnosti α je urˇcen tak, aby P (T (X) ∈ Wα | H0 ) = α,

(7.5)

(tj. pravdˇepodobnost, ˇze testová statistika nabude hodnoty z kritického oboru za platnosti nulové hypotézy, je rovna α). Pravdˇepodobnost chyby prvn´ıho druhu α je tedy definována vztahem (7.5). Pravdˇepodobnost chyby druhého druhu β je pak β = P (T (X) ∈ / Wα | HA ).

(7.6)

Rozhodovac´ı pravidlo d(T (X)) pro test nulové hypotézy je následuj´ıc´ı: (

dW (T (x)) =

1 pokud T (x) ∈ Wα 0 pokud T (x) ∈ / Wα .

(7.7)

Je-li hodnota rozhodovac´ıho pravidla rovna 1, pak hypotézu H0 zam´ıtáme, je-li hodnota rozhodovac´ıho pravidla rovna 0, pak ˇr´ıkáme, ˇze hypotézu H0 nelze zam´ıtnout. Pˇredpokládejme, ˇze známe rozdˇelen´ı F (t) testové statistiky T za platnosti H0 . Pak kritick´ y obor Wα pro zadanou pravdˇepodobnost α vymezuj´ı kritick´ e hodnoty tα rozdˇelen´ı testové statistiky následuj´ıc´ım zp˚ usobem: α = P (T > tα ) = 1 − F (tα ).

(7.8)

Oznaˇc´ıme-li nejmenˇs´ı moˇznou hodnotu testové statistiky tmin a nejvˇetˇs´ı moˇznou hodnotu tmax , pak v pˇr´ıpadˇe pravostranného testu bude kritick´ y obor Wα = (tα , tmax ), v pˇr´ıpadˇe levostranného testu Wα = (tmin , t1−α ) 100

7.3 P - HODNOTY

a nakonec v pˇr´ıpadˇe dvoustranného testu Wα = (tmin , t1−α/2 ) ∪ (tα/2 , tmax ) = W1,α/2 ∪ W2,α/2 . Obor pˇrijet´ı Wα je ve vˇsech uveden´ ych pˇr´ıpadech doplnˇekem kritického oboru (Wα ∪Wα = V ). Pro jednoduchost budeme v dalˇs´ım textu pouˇz´ıvat oznaˇcen´ı T = T (X) pro testovou statistiku a tc = T (x) pro jej´ı hodnotu vypoˇctenou z konkrétn´ı realizace náhodného v´ ybˇeru.

7.2.6

Klasick´ y pˇ r´ıstup k testov´ an´ı hypot´ ez

Klasick´ y pˇr´ıstup k testován´ı hypotéz spoˇc´ıvá v tom, ˇze pˇredem zvol´ıme pevnou hladinu významnosti. Testovac´ı postup je odvozen tak, aby pˇri dané hladinˇe v´ yznamnosti zajiˇst’oval minimáln´ı pravdˇepodobnost chyby II. druhu a t´ım maximáln´ı s´ılu testu. V dalˇs´ıch odstavc´ıch této kapitoly se budeme zab´ yvat metodami testován´ım hypotéz o nˇekter´ ych parametrech rozdˇelen´ı. Urˇcité základn´ı kroky pˇri testován´ı hypotéz o parametrech rozdˇelen´ı jsou spoleˇcné vˇsem metodám testován´ı hypotéz zaloˇzen´ ym na klasickém pˇr´ıstupu. Tyto kroky jsou uvedeny v následuj´ıc´ım postupu 7.1. Postup 7.1

Test hypotezy pouˇzit´ım klasickeho pˇr´ıstupu ´ ´

1. 2. 3. 4. 5.

Formulujte nulovou a alternativn´ı hypotézu. Zvolte hladinu v´ yznamnosti α. Urˇcete kritickou hodnotu (kritické hodnoty). Vypoˇctˇete hodnotu testové statistiky. Jestliˇze hodnota testové statistiky padne do oboru zam´ıtnut´ı, zam´ıtnˇete H0 ; jinak nezam´ıtejte H0 . 6. Formulujte slovnˇe závˇer. Vztah mezi testov´ an´ım hypot´ ez a intervaly spolehlivosti

Vˇsimneme si souvislosti mezi testy hypotéz o parametru θ a intervalem spolehlivosti pro tento parametr. Z definice rozhodovac´ıho pravidla (7.7) pro test hypotézy a z definice 100(1 − α)% intervalu spolehlivosti (6.6 na stranˇe 85) pro parametr vypl´ yvá, ˇze nulov´ a hypotéza o urˇcitém parametru bude zam´ıtnuta tehdy a jen tehdy, jestliˇze hodnota parametru daná nulovou hypotézou leˇz´ı vnˇe 100(1 − α)% intervalu spolehlivosti pro testovaný parametr.

7.3

P -hodnoty

Pˇri klasickém pˇr´ıstupu k testován´ı hypotéz (viz postup 7.1) je hladina v´ yznamnosti stanovena pˇredem a závˇery jsou pak formulovány v pojmech zam´ıtnut´ı nebo nezam´ıtnut´ı nulové hypotézy. Tento pˇr´ıstup má nˇekteré nev´ yhody: nedovoluje uˇzivatel˚ um, kteˇr´ı maj´ı k dispozici pouze závˇery o testované hypotéze, uˇcinit své vlastn´ı ohodnocen´ı (tj. vybrat si svoji vlastn´ı hladinu v´ yznamnosti); ani jim neposkytuje informaci nutnou k zjiˇstˇen´ı, jak silné jsou argumenty proti nulové hypotéze. Z tohoto d˚ uvodu mnoho v´ yzkumn´ ych pracovn´ık˚ u a vˇetˇsina statistick´ ych programov´ ych systém˚ u udává tzv. P -hodnotu hypotézy. Vypoˇcteme hodnotu testové statistiky a k n´ı nejmenˇs´ı obor zam´ıtnut´ı, pˇri kterém bychom mohli na základˇe této hodnoty zam´ıtnout nulovou hypotézu proti dané alternativˇe. Hladina v´ yznamnosti odpov´ıdaj´ıc´ı tomuto kritickému oboru je P -hodnota. 101


K APITOLA 7

Definice 7.5

P - HODNOTA

Necht’ T je testová statistika, tc je pozorovaná hodnota testové statistiky. Pak P -hodnota testu hypotézy se rovná • 2. min{P (T ≤ tc ), P (T ≥ tc )} pro dvoustrann´ y test, • P (T ≤ tc ) pro levostrann´ y test, • P (T ≥ tc ) pro pravostrann´ y test, kde pravdˇepodobnosti jsou poˇc´ıtány za podm´ınky, ˇze nulová hypotéza je správná. Pozn´ amka: Obvykle nem˚ uˇzeme urˇcit pˇresnou P -hodnotu pomoc´ı odpov´ıdaj´ıc´ı tabulky kritick´ ych hodnot, m˚ uˇzeme ji pouze odhadnout. Ke stanoven´ı pˇresné P -hodnoty pouˇzijeme poˇc´ıtaˇc. Obr´ azek 7.1 P -hodnota P -hodnota

P -hodnota

t

0 −tc

t

0

tc

(a) dvoustrann´ y test

7.3.1

P -hodnota

tc

(b) levostrann´ y test

t

0 tc

(c) pravostrann´ y test

Pˇ r´ıstup k testov´ an´ı hypot´ ez zaloˇ zen´ y na P -hodnotˇ e

P -hodnota m˚ uˇze b´ yt interpretována jako pozorovan´ a hladina v´ yznamnosti testu hypotézy. Ilustrujme si to na pˇr´ıkladu. Uvaˇzujme pravostrann´ y test zaloˇzen´ y na testové statistice, která má normované normáln´ı rozdˇelen´ı. Pˇredpokládejme, ˇze hodnota testové statistiky je 1.88. Pak P -hodnota testu hypotézy je 0.0301, jak je znázornˇeno na následuj´ıc´ım obrázku. Obr´ azek 7.2 P -hodnota jako pozorovan´ a hladina významnosti

P-hodnota=0.0301

z0.05

z 0 = 1.645 z0.01 = 2.33 zc = 1.88

Jak vid´ıme z obrázku 7.2, nulová hypotéza by mˇela b´ yt zam´ıtnuta na hladinˇe v´ yznamnosti α = 0.05, ale nemˇela by b´ yt zam´ıtnuta na hladinˇe α = 0.01. Ve skuteˇcnosti, jak je zˇrejmé z obrázku, P -hodnota je pˇresnˇe nejmenˇs´ı hladina v´ yznamnosti, na které by nulová hypotéza mˇela b´ yt zam´ıtnuta. 102

´ ´Z 7.4 N Eˇ KTER E´ TESTY PARAMETRICK YCH HYPOT E

P -hodnota jako pozorovan´ a hladina v´ yznamnosti P -hodnota testu hypotézy je rovna nejmenˇs´ı hladinˇe v´ yznamnosti, na které nulová hypotéza m˚ uˇze b´ yt zam´ıtnuta, to je nejmenˇs´ı hladinˇe v´ yznamnosti, pˇri které v´ ybˇerová data vedou k zam´ıtnut´ı nulové hypotézy. S ohledem na pˇredcházej´ıc´ı skuteˇcnost m˚ uˇzeme formulovat následuj´ıc´ı kriterium pro rozhodnut´ı, zda nulová hypotéza by mˇela b´ yt zam´ıtnuta ve prospˇech alternativn´ı hypotézy. Rozhodovac´ı kriterium pro test hypot´ ezy pomoc´ı P -hodnoty Jestliˇze P -hodnota je menˇs´ı nebo rovna zadané hladinˇe v´ yznamnosti, pak zam´ıtnˇete nulovou hypotézu; jinak nezam´ıtejte nulovou hypotézu. Obecná metoda testu hypotézy zaloˇzená na P -hodnotˇe je uvedena v následuj´ıc´ım postupu, kter´ y budeme naz´ yvat pˇr´ıstup k testován´ı hypotézy zaloˇzen´ y na P -hodnotˇe. Postup 7.2 1. 2. 3. 4. 5. 6.

Test hypotezy zaloˇzeny´ na P -hodnotˇe ´

Formulujte nulovou a alternativn´ı hypotézu. Zvolte hladinu v´ yznamnosti α. Vypoˇctˇete hodnotu testové statistiky. Urˇcete P -hodnotu. Jestliˇze P ≤ α zam´ıtnˇete H0 ; jinak nezam´ıtejte H0 . Formulujte slovnˇe závˇer.

7.4

Nˇ ekter´ e testy parametrick´ ych hypot´ ez

V tomto odstavci se budeme zab´ yvat jednak jednov´ ybˇerov´ ymi testy o nˇekter´ ych parametrech rozdˇelen´ı (stˇredn´ı hodnota, rozptyl, pod´ıl), jednak testy o shodˇe nˇekter´ ych parametr˚ u, zaloˇzen´ ymi na nezávisl´ ych respektive párovˇe závisl´ ych v´ ybˇerech. Pˇritom budeme vycházet z v´ ysledk˚ u kapitoly 5 o náhodném v´ ybˇeru, zejména o v´ ybˇerovém rozdˇelen´ı statistik. Vzhledem k tomu, ˇze jsme v pˇredcházej´ıc´ı ˇcásti uvedli obecn´ y postup pro test hypotézy zaloˇzen´ y jak na klasickém pˇr´ıstupu, tak na P -hodnotˇe, uvedeme v dalˇs´ım textu u jednotliv´ ych test˚ u pouze pˇredpoklady, testovou statistiku a kritick´ y obor, a v nˇekter´ ych pˇr´ıpadech i P hodnotu.

7.4.1

Test hypot´ ezy o stˇ redn´ı hodnotˇ eµ

Na základˇe u ´daj˚ u o náhodném v´ ybˇeru z normáln´ıho rozdˇelen´ı nebo o náhodném v´ ybˇeru velkého rozsahu z libovolného rozdˇelen´ı, chceme ovˇeˇrit pˇredpoklad, ˇze stˇredn´ı hodnota náhodné veliˇciny µ (pr˚ umˇer základn´ıho souboru) se rovná urˇcité hodnotˇe µ0 . Nulovou hypotézu tedy formulujeme jako H0 : µ = µ0 . Alternativn´ı hypotéza je v pˇr´ıpadˇe dvoustranného testu HA : µ 6= µ0 . V pˇr´ıpadˇe jednostrann´ ych test˚ u HA : µ > µ0 nebo HA : µ < µ0 . Budeme se zab´ yvat dvˇema metodami, jednu lze aplikovat v pˇr´ıpadˇe, kdy je rozptyl rozdˇelen´ı znám, druhou v pˇr´ıpadˇe neznalosti rozptylu rozdˇelen´ı.

103

K APITOLA 7


Test hypot´ ezy o stˇ redn´ı hodnotˇ e µ pˇ ri zn´ am´ em rozptylu σ 2 Za pˇredpokladu, ˇze známe rozptyl rozdˇelen´ı, zvol´ıme testovou statistiku Z=

X − µ0 √ , σ/ n

(7.9)

která má za platnosti nulové hypotézy (pˇribliˇznˇe) normované normáln´ı rozdˇelen´ı (viz tvrzen´ı 5.2). Postup 7.3 pro test hypotézy H0 : µ = µ0 pˇri známém σ 2 budeme naz´ yvat jednov´ ybˇ erov´ y z-test pro µ nebo struˇcnˇeji z-test pro µ. Postup 7.3

Jednovybˇ H 0 : µ = µ0 ´ erovy´ z-test pro stˇredn´ı hodnotu µ s nulovou hypotezou ´

• Pˇredpoklady a. Normáln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru (n ≥ 30). 2 b. Znám´ y rozptyl σ . • Testov´ a statistika: Z =

¯ X−µ √0 σ/ n

∼ N (0, 1) nebo Z ≈ N (0, 1)

• Kritické hodnoty H0 : pro levostrann´ y test: −zα pro dvoustrann´ y test: ±zα/2 pro pravostrann´ y test: zα Wα

W1, α2

Wα

Wα

W2, α2

α 2

α −zα

0

Wα

Wα

α 2

−z α2

0

z α2

α 0

zα

Skuteˇcná hladina v´ yznamnosti je rovna α pro normáln´ı rozdˇelen´ı a je pouze pˇribliˇznˇe rovna α pro v´ ybˇery z jin´ ych neˇz normáln´ıch rozdˇelen´ı. Stejnˇe jako metoda sestrojen´ı z-intervalu je i z-test robustn´ı v˚ uˇci mal´ ym odchylkám od pˇredpokladu normality rozdˇelen´ı. Co se t´ yˇce odlehl´ ych pozorován´ı, mohou m´ıt znaˇcn´ y vliv na z-test dokonce pˇri velkém rozsahu v´ ybˇeru, nebot’ v´ ybˇerov´ y pr˚ umˇer nen´ı rezistentn´ı v˚ uˇci odlehl´ ym pozorován´ım. Pˇ r´ıklad 7.2 Ilustrace postupu 7.3 ´ ´ em rozptylu pln´ıc´ıho Odbˇeratel s dodavatelem uzavˇreli smlouvu o dodavce pytlu˚ obil´ı. Pˇri znam´ ´ stˇredn´ı hodnota hmotnosti pytlu˚ 10 kg. Pro ovˇerˇen´ı toho, zˇe plnic´ı stroj stroje σ 2 = 0.1 mus´ı byt ´ ´ ˚ a z´ıskan ´ aritmeticky´ prumˇ ˚ er jejich hmotnosti pracuje dobˇre, bylo nahodnˇ e vybrano 40 pytlu ´ ˚ je 10 kg. x ¯ = 9.8 kg. Rozhodnˇete na 5% hladinˇe vy´ znamnosti, zda hmotnost dodavan´ ych pytlu ˇ Reˇsen´ı: Vzhledem k tomu, zˇ e n = 40 je splnˇena podm´ınka n ≥ 30. ´ ˚ je pˇresnˇe 10 kg) 1. H0 : µ = 10 kg (stˇredn´ı hodnota dodavan´ ych pytlu ´ ˚ nen´ı pˇresnˇe 10 kg). Test hypotézy je dvousHA : µ 6= 10 kg (stˇredn´ı hodnota dodavan´ ych pytlu ´ tranny. ´ 2. Hladina vyznamnosti α = 0.05 ´ 3. Kritické hodnoty ±zα/2 pro dvoustranny´ test najdeme v tabulce II.kritickych hodnot N (0, 1)rozdˇelen´ı, ±z0.025 = ±1.96

104

´ ´Z 7.4 N Eˇ KTER E´ TESTY PARAMETRICK YCH HYPOT E ´ ´ ´ 4. Mame zadano µ0 = 10, x ¯ = 9.8, σ 2 = 0.1, n = 40 a z 3. kroku ±z0.025 = ±1.96. Vypoˇc´ıtame hodnotu testové statistiky 9.8 − 10 x ¯ − µ0 √ =p zc = = −4 σ/ n 0.1/40 ´ zˇe leˇz´ı v kritickém oboru nulové hypotézy, 5. Hodnota testové statistiky je zc = −4. To znamena, ´ ´ tud´ızˇ nulovou hypotézu zam´ıtame na hladinˇe vyznamnosti 0.05. ´ ´ ´ ´ davaj´ ´ 6. Vysledky testu jsou statisticky vyznamn´ e na 5% hladinˇe vyznamnosti. Tud´ızˇ data nam ı ˚ k tomu, abychom udˇelali zavˇ ´ er, zˇ e stˇredn´ı hodnota hmotnosti dodavan´ ´ dostatek argumentu ych ˚ nen´ı pˇresnˇe 10 kg. pytlu

Test hypot´ ezy o stˇ redn´ı hodnotˇ e µ pˇ ri nezn´ am´ em rozptylu σ 2 Rozptyl rozdˇelen´ı, z nˇehoˇz v´ ybˇer pocház´ı obvykle neznáme. Pˇri odvozen´ı metody pro test hypotézy o stˇredn´ı hodnotˇe µ pˇri neznámém rozptylu σ 2 , vyjdeme z tvrzen´ı 5.2, které pˇripomeneme. Je-li k dispozici náhodn´ y v´ ybˇer o rozsahu n z normáln´ıho rozdˇelen´ı se stˇredn´ı X−µ hodnotou µ, pak náhodná veliˇcina T = S/√n má t-rozdˇelen´ı s n − 1 stupni volnosti. M˚ uˇzeme tud´ıˇz provést test hypotézy s nulovou hypotézou: H0 : µ = µ0 za pomoci testové statistiky T =

X − µ0 √ S/ n

a s pouˇzit´ım tabulky III.urˇcit kritické hodnoty. Následuj´ıc´ı postup pro test hypotézy o stˇredn´ı hodnotˇe budeme naz´ yvat jednov´ ybˇ erov´ y t-test nebo zkrácenˇe t-test pro µ . Postup 7.4

Jednovybˇ H 0 : µ = µ0 ´ erovy´ t-test o stˇredn´ı hodnotˇe µ s nulovou hypotezou ´

• Pˇredpoklady a. Normáln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru (n > 30). b. Neznám´ y rozptyl σ 2 . • Testov´ a statistika: T =

X−µ √0 s/ n

∼ t(n − 1) nebo T ≈ t(n − 1)

• Kritické hodnoty H0 : pro dvoustrann´ y test: ±tα/2 pro levostrann´ y test: −tα pro pravostrann´ y test: tα Test hypotézy je pˇresn´ y pro normáln´ı rozdˇelen´ı a pouze pˇribliˇzn´ y pro v´ ybˇery z jin´ ych neˇz normáln´ıch rozdˇelen´ı. Aˇckoliv t-test byl odvozen za pˇredpokladu, ˇze máme v´ ybˇery z normáln´ıho rozdˇelen´ı, pouˇz´ıvá se i pro v´ ybˇery o velkém rozsahu z jin´ ych neˇz normáln´ıch rozdˇelen´ı. Test pracuje dobˇre i pˇri pomˇernˇe mal´ ych v´ ybˇerech z jin´ ych neˇz normáln´ıch rozdˇelen´ı, pokud se rozdˇelen´ı neliˇs´ı pˇr´ıliˇs od normáln´ıho. Jin´ ymi slovy, t-test je robustn´ı v˚ uˇci mal´ ym odchylkám od pˇredpokladu normality rozdˇelen´ı. Co se t´ yˇce odlehl´ ych pozorován´ı, mohou m´ıt dokonce pˇri velkém rozsahu v´ ybˇeru znaˇcn´ y vliv na t-test, nebot’ v´ ybˇerov´ y pr˚ umˇer a v´ ybˇerov´ y rozptyl nejsou v˚ uˇci nim rezistentn´ı.

105

K APITOLA 7


Pˇ r´ıklad 7.3 Ilustrace postupu 7.4 ´ ´ ´ inteligenˇcn´ı kvocient. Ze z´ıskany´ ch U 30 nahodnˇ e vybranych obyvatel mˇesta Prahy byl testovan ´ ´ ´ erovy´ prumˇ ˚ er x udaj u˚ byly vypoˇc´ıtany vybˇ ¯ = 101.8 a výbˇerova´ smˇerodatna´ odchylka s = 6.2. a) Tes´ tujte na 5% hladinˇe vyznamnosti, zda je stˇredn´ı hodnota IQ obyvatel Prahy vˇetˇs´ı neˇz 100. b) Urˇcete P -hodnotu pro uvaˇzovany´ test. ˇ sen´ı: Reˇ a ) Pˇredpoklady pro aplikaci postupu 7.4 jsou splnˇeny, nebot’ n = 30. 1. H0 : µ = 100 (µ0 = 100) (stˇredn´ı hodnota IQ vˇsech obyvatel Prahy nen´ı vˇetˇs´ı neˇz 100) HA : µ > 100 (stˇredn´ı hodnota IQ vˇsech obyvatel Prahy je vˇetˇs´ı neˇz 100) ´ Test hypotézy je pravostranny. ´ 2. Hladina vyznamnosti α = 0.05 3. Kriticka´ hodnota pro pravostranny´ test je tα s n − 1 stupni volnosti. V tabulce III.najdeme, zˇe . pro ν = n − 1 = 29 je t0.05 = 1.699 = 1.7 ´ ´ ´ 4. Mame zadano µ0 = 100, x ¯ = 101.8, s = 6.2, n = 30 a z 3. kroku t0.05 = 1.7. Vypoˇc´ıtame hodnotu testové statistiky x ¯ − µ0 101.8 − 100 √ √ = tc = = 1.59 s/ n 6.2/ 30 5. Hodnota testové statistiky je menˇs´ı neˇz kriticka´ hodnota 1.7, tud´ızˇ tc neleˇz´ı v kritickém oboru ´ nulové hypotézy a proto nulovou hypotézu nezam´ıtame na 5% hladinˇe významnosti. ´ ˚ 6. Vy´ sledky testu nejsou statisticky vyznamn´ e na 5% hladinˇe. V dusledku toho vy´ bˇerova´ data ´ nedavaj´ ´ ´ er, zˇe stˇredn´ı hodnota IQ obyvatel nam ı dostatek argumentu˚ k tomu, abychom udˇelali zavˇ Prahy je vˇetˇs´ı neˇz 100. ˚ zeme urˇcit pˇresnou P b ) P -hodnota je pro pravostranny´ test P (T ≥ 1.59). Z tabulky III. nemuˇ ˇu ˚ volnosti 29 plat´ı 0.05 < P (T ≥ 1.59) < 0.1. Protoˇze P hodnotu. Zjist´ıme pouze, zˇe pro poˇcet stupn ´ ˚ zeme H0 zam´ıtnout. hodnota je menˇs´ı neˇz poˇzadovana´ hladina vyznamnosti, muˇ

7.4.2

Test hypot´ ezy o rozptylu

V tomto odstavci uvedeme postup pro test hypotézy H0 : σ 2 = σ02 . Alternativn´ı hypotéza je v pˇr´ıpadˇe dvoustranného testu HA : σ 2 6= σ02 . V pˇr´ıpadˇe jednostrann´ ych test˚ u HA : σ 2 > σ02 nebo HA : σ 2 < σ02 . Pˇripomeˇ nme, ˇze v pˇr´ıpadˇe test˚ u hypotéz o stˇredn´ı hodnotˇe normáln´ıho rozdˇelen´ı nepouˇz´ıváme jako testovou statistiku v´ ybˇerov´ y pr˚ umˇer X, ale normovan´ y tvar v´ ybˇerového pr˚ umˇeru. Podobnˇe, nepouˇzijeme ani v pˇr´ıpadˇe testu hypotézy o rozptylu normáln´ıho rozdˇelen´ı náhodnou veliˇcinu S 2 jako testovou statistiku, ale náhodnou veliˇcinu χ2 =

n−1 2 S , σ02

která vzhledem k tvrzen´ı 5.3 má χ2 -rozdˇelen´ı s n − 1 stupni volnosti. Metodu testu hypotézy o rozptylu uvedenou n´ıˇze budeme naz´ yvat χ2 -test o rozptylu. Postup 7.5

χ2 -test hypotezy o rozptylu σ 2 s nulovou hypotezou H0 : σ 2 = σ02 ´ ´

• Pˇredpoklad Normáln´ı rozdˇelen´ı. • Testov´ a statistika: χ2 =

(n−1) 2 S σ02

∼ χ2 (n − 1). 106

´ ´Z 7.4 N Eˇ KTER E´ TESTY PARAMETRICK YCH HYPOT E

• Obor zam´ıtnut´ı H0 : pro levostrann´ y test: (0; χ21−α ), pro dvoustrann´ y test: (0; χ21−α/2 ) ∪ (χ2α/2 ; ∞), pro pravostrann´ y test: (χ2α ; ∞). Wα

Wα

W1, α2

Wα

W2, α2

α 2

α

χ21−α

Wα

Wα

α 2

χ2 χ21−α/2

χ2α/2

χ2

α χ2α

χ2

• P -hodnota testu H0 : pro levostrann´ y test: P (χ2 ≤ χ2c ), pro dvoustrann´ y test: 2 min{P (χ2 ≤ χ2c ), P (χ2 ≥ χ2c )}, pro pravostrann´ y test: P (χ2 ≥ χ2c ). Na rozd´ıl od t-testu pro stˇredn´ı hodnotu, χ2 -test pro rozptyl nen´ı robustn´ı v˚ uˇci odchylkám od pˇredpokladu normality. Je dokonce tak nerobustn´ı, ˇze je doporuˇcován pouze v pˇr´ıpadˇe v´ ybˇeru z normáln´ıho rozdˇelen´ı nebo z rozdˇelen´ı liˇsic´ıho se nepatrnˇe od normáln´ıho. Dˇr´ıve neˇz pouˇzijeme χ2 -test je nutná pˇredbˇeˇzná anal´ yza. Pˇ r´ıklad 7.4 Ilustrace postupu 7.5 ´ ec´ıho stroje se zjist´ı z rozptylu délky vyrabˇ ´ enych ´ Pˇresnost nastaven´ı automatického obrabˇ sou´ cˇ astek. Je-li jeho hodnota vˇetˇs´ı neˇz 380 µm2 , je tˇreba stroj znovu nastavit. Vybrali jsme 15 ´ ´ erovy´ rozptyl byl 680 µm2 . Testujte tvrzen´ı stroj je dostateˇcnˇe pˇresný proti souˇcastek a jejich vybˇ ´ ıho tvrzen´ı stroj je tˇreba znovu nastavit, a to na hladinˇe α = 0.01 za pˇredpokladu, zˇ e vy´ bˇeru z normaln´ rozdˇelen´ı. ˇ sen´ı: Reˇ 1. H0 : σ 2 = 380 (stroj je dostateˇcnˇe pˇresný), ´ HA : σ 2 > 380 (stroj je tˇreba znovu nastavit). Test je pravostranny. 2. α = 0.01. 2 3. Kriticka´ hodnota je χα s ν = n − 1 stupni volnosti. Z tabulek pro ν = 15 − 1 = 14 dostaneme 2 2 χα = χ0.01 = 29.14. W0.01 = (29.14, ∞). 4. s2 = 680 tud´ızˇ χ2c = 14 · 680/380 = 25.05. ´ 5. Vypoˇctena´ hodnota testové statistiky neleˇz´ı v kritickém oboru, tud´ızˇ nezam´ıtame H0 . ´ data nedavaj´ ´ ˚ proto, abychom udˇelali 6. Na 1% hladinˇe vy´ znamnosti nam ı dostatek argumentu ´ er, zˇe stroj je tˇreba znovu nastavit. zavˇ

7.4.3

Testy hypot´ ezy o pod´ılu p

Tvrzen´ı 5.5 v kapitole 5 umoˇzn ˇuje pouˇz´ıt jako testovou statistku pro test nulové hypotézy H0 : p = p0 náhodnou veliˇcinu pˆ − p0 , Z=q p0 (1 − p0 )/n která má pro velká n pˇribliˇznˇe normované normáln´ı rozdˇelen´ı. Kritické hodnoty najdeme v tabulce II. Základn´ı u ´daje pro test zm´ınˇené nulové hypotézy pro pod´ıl (parametr alternativn´ıho rozdˇelen´ı) jsou uvedeny v postupu 7.6. 107

K APITOLA 7

Postup 7.6


Jednovybˇ o pod´ılu p s nulovou hypotezou H0 : p = p 0 ´ erovy´ z-test hypotezy ´ ´

• Pˇredpoklady Pro n a p0 plat´ı, ˇze np0 a zároveˇ n n(1 − p0 ) jsou rovny alespoˇ n 5. pˆ − p0

• Testov´ a statistika: Z = q

p0 (1 − p0 )/n

≈ N (0, 1)

• Kritické hodnoty H0 : pro dvoustrann´ y test: ±zα/2 pro levostrann´ y test: −zα pro pravostrann´ y test: zα Pˇ r´ıklad 7.5 Ilustrace postupu 7.6 ˇ se 650 vyslovilo pro pˇr´ımou volbu prezidenta. Muˇ ´ ˚ zeme na zakladˇ ´ Z 1250 dotazan´ ych voliˇcu˚ CR e ˇ si pˇreje pˇr´ımou volbu prezidenta? Testujte na 5% ´ ´ er, zˇe vˇetˇsina voliˇcu ˚ CR tˇechto udaj u˚ udˇelat zavˇ ´ hladinˇe vyznamnosti. ˇ Reˇsen´ı: Nejprve ovˇerˇ´ıme podm´ınku pro pouˇzit´ı testu. Rozsah výbˇeru je n = 1250 a p0 = 0.50. Tud´ızˇ np0 = 1250 · 0.50 = 625 > 5 a n(1 − p0 ) = 1250 · 0.50 = 625 > 5. Podm´ınka je splnˇena. ˚ chce pˇr´ımou volbu prezidenta) 1. H0 : p = 0.50 (nen´ı pravda, zˇe vˇetˇsina voliˇcu ˚ chce pˇr´ımou volbu). HA : p > 0.50 (vˇetˇsina voliˇcu ´ Test hypotézy je pravostranny. 2. α = 0.05 3. Kriticka´ hodnota pro pravostranný test je zα = z0.05 = 1.645. ˚ je pˆ = 650/1250 = 0.52. Takˇze hodnota 4. Vzhledem k tomu, zˇ e pro pˇr´ımou volbu je 650 voliˇcu, testové statistiky je 0.52 − 0.50 zc = p = 1.41. 0.50(1 − 0.50)/1250 ´ 5. Vypoˇctena´ hodnota zc = 1.41 < 1.645, neleˇz´ı v kritickém oboru, a proto nezam´ıtame H0 . ´ 6. Vy´ sledky testu nejsou statisticky významné na 5% hladinˇe; to je na 5% hladinˇe vyznamnosti ´ data nedavaj´ ´ ˚ proto, abychom udˇelali zavˇ ´ er, zˇe vˇetˇsina obˇcanu ˚ chce nam ı dostatek argumentu pˇr´ımou volbu prezidenta. ˚ zeme sice zam´ıtnout na P -hodnota pro test. Z tabulky II. najdeme P = 0.0793. Hypotézu nemuˇ ´ ˚ zeme ji zam´ıtnout na 8% hladinˇe, pˇresnˇeji na kterékoliv hladinˇe 5% hladinˇe vyznamnosti, ale muˇ vˇetˇs´ı nebo rovné 7.93%.

7.5

Testy hypot´ ez o shodˇ e dvou stˇ redn´ıch hodnot

Nyn´ı se budeme zab´ yvat testem hypotézy pro dvˇe stˇredn´ı hodnoty. Tyto metody jsou jedny z nejˇcastˇeji pouˇz´ıvan´ ych, at’ v pr˚ umyslov´ ych aplikac´ıch, tak v r˚ uzn´ ych marketingov´ ych pr˚ uzkumech apod. Umoˇzn ˇuj´ı totiˇz porovnávat r˚ uzné situace ve v´ yrobˇe, ve financován´ı, v prodeji. Jde o pˇr´ıpady, kdy neprovád´ıme u ´sudky pouze z jednoho náhodného v´ ybˇeru, ale porovnáváme mezi sebou v´ ybˇery dva. Na základˇe porovnán´ı tˇechto v´ ybˇer˚ u provád´ıme u ´sudky o dvou základn´ıch souborech, z nichˇz byly v´ ybˇery poˇr´ızeny. V tomto odstavci se budeme zab´ yvat tˇremi metodami pro porovnán´ı dvou stˇredn´ıch hodnot, dvˇema metodami pro nezávislé v´ ybˇery (odstavec 7.5.1) a jednou metodou pro párové v´ ybˇery (odstavec 7.5.2). 108

7.5 T ESTY HYPOT E´ Z O SHOD Eˇ DVOU ST Rˇ EDNÍ CH HODNOT

7.5.1

Testy hypot´ ezy o shodˇ e dvou stˇ redn´ıch hodnot pro nez´ avisl´ e v´ ybˇ ery

Metody, kter´ ymi se budeme nejprve zab´ yvat vyˇzaduj´ı, aby v´ ybˇery byly nezávislé (viz odstavec 5.4). Pˇredpokládejme, ˇze máme dva nezávislé náhodné v´ ybˇery o rozsahu n1 a n2 z rozdˇelen´ı se stˇredn´ımi hodnotami µ1 a µ2 a smˇerodatn´ ymi odchylkami σ1 a σ2 . Dále pˇredpokládejme, ˇze bud’ obˇe rozdˇelen´ı jsou normáln´ı nebo oba v´ ybˇery jsou velké. Budeme uvaˇzovat dva pˇr´ıpady a sice pˇr´ıpad, kdy rozptyly rozdˇelen´ı, z nichˇz v´ ybˇery pocház´ı, jsou shodné a druh´ y pˇr´ıpad, kdy rozptyly jsou r˚ uzné. Vzhledem k tomu, ˇze rozptyly rozdˇelen´ı obvykle neznáme, nebudeme se zab´ yvat postupy sestrojen´ ymi za pˇredpokladu znalosti rozptyl˚ u. Test hypot´ ezy µ1 = µ2 (nez´ avisl´ e v´ ybˇ ery, σ1 = σ2 ) Se zˇretelem na tvrzen´ı 5.7 m˚ uˇzeme pro test hypotézy s nulovou hypotézou H0 : µ1 = µ2 (stˇredn´ı hodnoty rozdˇelen´ı jsou shodné) pouˇz´ıt náhodnou veliˇcinu T =

X1 − X2

q

SP 1/n1 + 1/n2

,

(7.10)

kde

(n1 − 1)S12 + (n2 − 1)S22 , (7.11) n1 + n2 − 2 jako testovou statistiku a urˇcit kritické hodnoty t-rozdˇelen´ı z tabulky III. Následuj´ıc´ı postup pro test hypotézy pro dvˇe stˇredn´ı hodnoty budeme naz´ yvat sdruˇ zen´ y t-test. SP2 =

Postup 7.7

Sdruˇzeny´ t-test pro dvˇe stˇredn´ı hodnoty s nulovou hypotezou H0 : µ1 = µ2 ´

• Pˇredpoklady a. Nezávislé v´ ybˇery b. Normáln´ı rozdˇelen´ı nebo velké rozsahy v´ ybˇer˚ u c. Smˇerodatné odchylky v obou rozdˇelen´ıch shodné ale neznámé • Testov´ a statistika: T =

X1 − X2

q

SP 1/n1 + 1/n2

∼ t(n1 + n2 − 2)

• Kritické hodnoty H0 : pro dvoustrann´ y test: ±tα/2 pro levostrann´ y test: −tα pro pravostrann´ y test: tα Pozn´ amky: 1. Ze vztahu (7.11) lze snadno odvodit, ˇze sdruˇzen´ y v´ ybˇerov´ y rozptyl s2P leˇz´ı vˇzdy mezi dvˇema v´ ybˇerov´ ymi rozptyly s21 a s22 . Tato skuteˇcnost je uˇziteˇcná jako kontrola, zda jsme s2P spoˇc´ıtali dobˇre. 2. Sdruˇzen´ y t-test pracuje pˇrimˇeˇrenˇe dobˇre dokonce pˇri mal´ ych nebo stˇrednˇe mal´ ych v´ ybˇerech z jin´ ych neˇz normáln´ıch rozdˇelen´ı za pˇredpokladu, ˇze odchylky od normáln´ıho rozdˇelen´ı nejsou pˇr´ıliˇs velké. Jin´ ymi slovy sdruˇzen´ y t-test je robustn´ı v˚ uˇci mal´ ym odchylkám od pˇredpokladu normality. 109

K APITOLA 7


3. Sdruˇzen´ y t-test je také robustn´ı v˚ uˇci mal´ ym odchylkám od pˇredpokladu shodnosti smˇerodatn´ ych odchylek v obou rozdˇelen´ıch, pokud se rozsahy v´ ybˇer˚ u pˇr´ıliˇs neliˇs´ı. 4. Jsou-li rozdˇelen´ı, z nichˇz poˇrizujeme v´ ybˇer, jen pˇribliˇznˇe normáln´ı, pak shodnost smˇerodatn´ ych odchylek b´ yt ovˇeˇrena testem naz´ yvan´ ym F -testem shodnosti smˇerodatn´ ych odchylek nebo rozptyl˚ u. Mnoho statistik˚ u tento test nedoporuˇcuje z toho d˚ uvodu, ˇze aˇckoliv t-test je robustn´ı v˚ uˇci mal´ ym odchylkám od normality, F -test je extrémnˇe nerobustn´ı v˚ uˇci takov´ ym odchylkám: i kdyˇz se rozdˇelen´ı jen málo liˇs´ı od normáln´ıho, F -test m˚ uˇze dávat nespolehlivé v´ ysledky. Statistik George E.P. Box ˇrekl: Testovat pˇredem hypotézu o rozptylech je ob” dobné, jako kdybychom pˇredt´ım, neˇz zaoceánsk´ y parn´ık vypluje z pˇr´ıstavu na ˇsir´ y oceán, spustili na moˇre ˇclun, abychom si ovˇeˇrili, ˇze jsou vhodné povˇetrnostn´ı podm´ınky pro vyplut´ı parn´ıku.“ 5. Pˇri u ´vahách o sdruˇzeném testu je tˇreba také sledovat pˇr´ıtomnost odlehl´ ych pozorován´ı, která souvis´ı s pˇredpokladem normality. Dokonce pˇri velk´ ych rozsaz´ıch v´ ybˇer˚ u mohou m´ıt nˇekdy odlehlá pozorován´ı znaˇcn´ y vliv na sdruˇzen´ y t-test, nebot’ v´ ybˇerov´ y pr˚ umˇer a v´ ybˇerová smˇerodatná odchylka nejsou resistentn´ı v˚ uˇci tˇemto odchylkám. Pˇ r´ıklad 7.6 Ilustrace postupu 7.7 Profesora psychologie na jedné velké universitˇe zaj´ımalo, zda se liˇs´ı stˇredn´ı hodnota IQ studentek ˚ zapsany´ ch na universitˇe. Nahodnˇ ´ ´ ´ er) a 20 a studentu e a nezavisle vybral 20 studentek (1. vybˇ ˚ (2. výbˇer) a podrobil je testu inteligence. Pˇredbˇezˇna´ analyza ´ ´ studentu ukazala, zˇe je rozumné ´ ˚ maj´ı normaln´ ´ ı rozdˇelen´ı a pˇribliˇznˇe stejné smˇerodatné pˇredpokladat, zˇe IQ studentek i studentu ´ ´ odchylky. Z dat, ktera´ mˇel profesor k dispozici, vypoˇc´ıtal nasleduj´ ıc´ı udaje: x ¯1 = 118.45, s1 = 7.61 ´ er. Muˇ ˚ zeme udˇelat zavˇ ´ er, zˇe stˇredn´ı hodnota IQ pro 1. vy´ bˇer a x ¯2 = 115.40, s2 = 8.02 pro 2. vybˇ studentek a studentu˚ se liˇs´ı? ´ a ) Testujte na 5% hladinˇe významnosti. b ) Urˇcete P -hodnotu. c ) Urˇcete nejmenˇs´ı hladinu vyzna˚ ze byt ´ zam´ıtnuta. mnosti, na které H0 muˇ ˇ sen´ı: Pˇredpoklady a.-c. jsou splnˇeny. a ) 1. H0 : µ1 = µ2 , HA : µ1 6= µ2 ; 2.α = 0.05; 3. n1 = n2 = 20, Reˇ ν = 20+20−2 = 38, kritické hodnoty ±tα/2 = ±t0.025 = ±2.025; 4. sP = 7.82, tc = 1.234; 5. tc = 1.234 < ´ ´ ´ data nedavaj´ ´ 2.025; Nezam´ıtame H0 ; 6. Na 5% hladinˇe vyznamnosti nam ı dostatek argumentu˚ pro ´ er, zˇe se na univerzitˇe liˇs´ı stˇredn´ı hodnota IQ vˇsech studentu˚ od stˇredn´ı to, abychom udˇelali zavˇ hodnoty IQ vˇsech studentek. b ) P -hodnota: P (|T | ≥ 1.234) = 2.(0.11) = 0.22. c ) 0.22.

Test hypot´ ezy µ1 = µ2 (nez´ avisl´ e v´ ybˇ ery, σ1 6= σ2 ) Jako v pˇr´ıpadˇe diskutovaném v´ yˇse budeme pˇredpokládat, ˇze standardn´ı odchylky v obou v´ ybˇerech nejsou známé, coˇz je obvyklé v praktick´ ych pˇr´ıpadech. Vzhledem k tvrzen´ı 5.8 m˚ uˇzeme k testu hypotézy s nulovou hypotézou H0 : µ1 = µ2 pouˇz´ıt jako testovou statistiku náhodnou veliˇcinu (X 1 − X 2 ) , T =q (s21 /n1 ) + (s22 /n2 ) která má pˇribliˇznˇe t-rozdˇelen´ı s poˇctem stupˇ n˚ u volnosti δ (delta), kde δ=

[(s21 /n1 ) + (s22 /n2 )]2 (s21 /n1 )2 n1 −1

+

110

(s22 /n2 )2 n2 −1

,

(7.12)

7.5 T ESTY HYPOT E´ Z O SHOD Eˇ DVOU ST Rˇ EDNÍ CH HODNOT

zaokrouhleno dol˚ u na nejbliˇzˇs´ı celé ˇc´ıslo. Dostáváme tak následuj´ıc´ı postup, kter´ y budeme naz´ yvat nesdruˇ zen´ y t-test. Postup 7.8

Nesdruˇzeny´ t-test pro dvˇe stˇredn´ı hodnoty s nulovou hypotezou H 0 : µ1 = µ2 ´

• Pˇredpoklady a. Nezávislé v´ ybˇery b. Normáln´ı rozdˇelen´ı nebo velké v´ ybˇery • Testov´ a statistika: T = q

X1 − X2 (s21 /n1 )

+ (s22 /n2 )

∼ t(δ) (δ definováno v (7.12))

• Kritické hodnoty H0 : pro dvoustrann´ y test: ±tα/2 pro levostrann´ y test: −tα pro pravostrann´ y test: tα Pˇ r´ıklad 7.7 Ilustrace postupu 7.8 ´ ˚ pro jednu Bylo vybrano 12 hotelu˚ ve mˇestˇe A a 15 hotelu˚ ve mˇestˇe B a zjiˇstˇeny ceny noclehu ´ ´ ˚ erna´ cena noclehu v hotelu ve mˇestˇe A je osobu za noc. Byly vypoˇcteny nasleduj´ ıc´ı udaje: prumˇ ˚ erna´ cena x ¯1 = 641 Kˇc a smˇerodatna´ odchylka s1 = 72.20 Kˇc; ve mˇestˇe B byla vypoˇctena prumˇ ˚ zeme na zakladˇ ´ ´ noclehu x ¯2 = 718.60 Kˇc a smˇerodatna´ odchylka s2 = 146.60 Kˇc. Muˇ e tˇechto udaj u˚ ´ er, zˇe stˇredn´ı hodnota ceny za nocleh ve vˇsech hotelech ve mˇestˇe A je niˇzsˇ´ı neˇz stˇredn´ı udˇelat zavˇ ´ hodnota v hotelech ve mˇestˇe B? Testujte na 5% hladinˇe vyznamnosti za pˇredpokladu, zˇe jde ´ ery z normaln´ ´ ıho rozdˇelen´ı. o vybˇ ˇ sen´ı: Výbˇery jsou nezavisl´ ´ Reˇ e, takˇze podm´ınky pro pouˇzit´ı testu jsou splnˇeny. 1. H0 : µ1 = µ2 (stˇredn´ı hodnota cen noclehu ve mˇestˇe A nen´ı menˇs´ı neˇz ve mˇestˇe B ) HA : µ1 < µ2 (stˇredn´ı hodnota cen noclehu ve mˇestˇe A je menˇs´ı neˇz ve mˇestˇe B) Test hypotézy je levostranný. 2. α = 0.05 ´ ˚ které jsou k dispozici vypoˇcteme 3. Z udaj u, δ=

£ ¤2 (72.22 /12) + (146.62 /15) (72.22 /12)2 12−1

+

(146.62 /15)2 15−1

= 21.

ˇu ˚ volnosti 21 je −t0.05 = −1.721. Kriticka´ hodnota −tα pro poˇcet stupn 4. Vypoˇcteme hodnotu testové statistiky 641.0 − 718.6

tc = p

(72.22 /12)2 + (146.62 /15)2

= −1.796.

´ 5. Hodnota testové statistiky spada´ do kritického oboru. Tud´ızˇ zam´ıtame H0 . ´ data davaj´ ´ 6. Vy´ sledky jsou statisticky vy´ znamné na 5% hladinˇe; na 5% hladinˇe nam ı dostatek ˚ k tomu, abychom udˇelali zavˇ ´ er, zˇe stˇredn´ı hodnota ceny noclehu za osobu a argumentu noc je ve mˇestˇe A niˇzsˇ ´ı neˇz ve mˇestˇe B.

111

K APITOLA 7

7.5.2


Testy hypot´ ezy pro dvˇ e stˇ redn´ı hodnoty uˇ zit´ım p´ arov´ ych v´ ybˇ er˚ u

Aˇz dosud jsme se zab´ yvali metodami porovnávaj´ıc´ımi stˇredn´ı hodnoty dvou v´ ybˇer˚ u zaloˇzen´ ymi na nezávisl´ ych v´ ybˇerech. V tomto odstavci se budeme zab´ yvat metodami pro porovnán´ı stˇredn´ıch hodnot uˇzit´ım párov´ ych v´ ybˇer˚ u. Pˇredpokládejme napˇr´ıklad, ˇze chceme rozhodnout, zda novˇe vyvinutá pˇr´ısada Super“ do ” benzinu, zv´ yˇs´ı poˇcet kilometr˚ u ujet´ ych osobn´ım automobilem pˇri stejné spotˇrebˇe benzinu. Necht’ µ1 znaˇc´ı stˇredn´ı hodnotu poˇctu ujet´ ych kilometr˚ u na 100 litr˚ u benzinu, kdyˇz pouˇzijeme pˇr´ısadu a µ2 stˇredn´ı hodnotu poˇctu ujet´ ych kilometr˚ u na 100 litr˚ u bez pouˇzit´ı pˇr´ısady. Chceme testovat nulovou hypotézu H0 : µ1 = µ2 (stˇredn´ı hodnotu poˇctu ujet´ ych kilometr˚ u s pˇr´ıpravkem nen´ı vˇetˇs´ı) HA : µ1 < µ2 (stˇredn´ı hodnotu poˇctu ujet´ ych kilometr˚ u bez pouˇzit´ı pˇr´ısady je vˇetˇs´ı). Jeden ze zp˚ usob˚ u, jak provést tento test, je následuj´ıc´ı: Vybereme zcela náhodnˇe a nezávisle dvˇe skupiny ˇreknˇeme o 10 autech v kaˇzdé. Jedna skupina bude pouˇz´ıvat pˇr´ısadu, druhá nikoliv a pak budeme aplikovat test hypotézy na z´ıskané u ´daje o poˇctu ujet´ ych kilometr˚ u. V tomto pˇr´ıpadˇe pouˇzijeme nezávislé v´ ybˇery. Následuj´ıc´ı metoda proveden´ı testu vˇsak m˚ uˇze b´ yt vhodnˇejˇs´ı: náhodnˇe vybereme jednu skupinu o 10 autech, kaˇzdé auto pouˇzije benzin jak s pˇr´ısadou tak bez pˇr´ısady a pak provedeme test hypotézy, kter´ y bude popsán v tomto odstavci na 10-ti párech u ´daj˚ u o poˇctu ujet´ ych kilometr˚ u pˇri spotˇrebˇe 100 litr˚ u benzinu. Tato metoda pouˇz´ıvá tzv. párové v´ ybˇery, kter´ ymi jsme se zab´ yvali v odstavci 5.5. T´ım, ˇze v´ ybˇery párujeme, m˚ uˇzeme odstranit vlivy na poˇcet ujet´ ych kilometr˚ u zp˚ usobené pouˇzit´ ym autem a ˇridiˇcem. V d˚ usledku toho pak chyby odhadu diference mezi stˇredn´ımi hodnotami budou obecnˇe menˇs´ı. S ohledem na tvrzen´ı 5.10 m˚ uˇzeme zformulovat postup pro porovnán´ı stˇredn´ıch hodnot dvou rozdˇelen´ı s pouˇzit´ım párov´ ych v´ ybˇer˚ u, za pˇredpokladu normáln´ıho rozdˇelen´ı vˇsech párov´ ych diferenc´ı. Budeme pouˇz´ıvat term´ın norm´ aln´ı diference pro pˇr´ıpad, kdy rozdˇelen´ı párov´ ych diferenc´ı je normáln´ı. Z tvrzen´ı 5.10 plyne, ˇze pro test hypotézy s nulovou hypotézou H0 : µ1 = µ2 , m˚ uˇzeme pouˇz´ıt náhodnou veliˇcinu D T = q (7.13) Sd 1/n jako testovou statistiku a z´ıskat tak kritické hodnoty z tabulky III. Tud´ıˇz dostaneme následuj´ıc´ı tzv. p´ arov´ y t-test. Postup 7.9

Parov y´ t-test pro dvˇe stˇredn´ı hodnoty s hypotezou H 0 : µ1 = µ2 ´ ´

• Pˇredpoklady a. Párové v´ ybˇery b. Normáln´ı diference nebo velké v´ ybˇery • Testov´ a statistika: T =

Sd

D √

1/n

∼ t(n − 1)

• Kritické hodnoty H0 : pro dvoustrann´ y test: ±tα/2 pro levostrann´ y test: −tα pro pravostrann´ y test: tα 112

´ ´ ´ Eˇ RECH 7.6 T EST HYPOT E´ ZY O SHOD Eˇ DVOU PODÍ L U˚ P Rˇ I NEZ AVISL YCH V YB

Test hypotézy je pˇresn´ y, jestliˇze rozdˇelen´ı párov´ ych diferenc´ı je normáln´ı a pˇribliˇzn´ y, jestliˇze rozdˇelen´ı diferenc´ı nen´ı normáln´ı, ale rozsah v´ ybˇeru je velk´ y. Pozn´ amky: 1. Stejnˇe jako jednov´ ybˇerov´ y t-test, párov´ y t-test pracuje rozumnˇe pro malé nebo pˇrimˇeˇrenˇe malé rozsahy v´ ybˇer˚ u pˇri mal´ ych odchylkách od pˇredpoklad˚ u normality. Je tedy robustn´ı v˚ uˇci mal´ ym odchylkám od pˇredpokladu normality. 2. Pˇredpoklad normality se t´ yká pouze párov´ ych diferenc´ı. Jednotlivé v´ ybˇery nemus´ı pocházet z normáln´ıho rozdˇelen´ı. Pˇ r´ıklad 7.8 Ilustrace postupu 7.9 Snaˇz´ıme se posoudit, jaky´ vliv ma´ na spotˇrebu auta opotˇrebovanost motoru. U 4 aut byla zjiˇstˇena ˚ erna´ diference d¯ = −0.025. spotˇreba (v l/100 km) pˇred a po ujet´ı 30 000 km, a vypoˇctena prumˇ ´ Testujte na 5% hladinˇe vyznamnosti hypotézu, zˇe se spotˇreba aut vlivem vˇetˇs´ı opotˇrebovanosti ´ ıch diferenc´ı. motoru nemˇen´ı za pˇredpokladu normaln´ ˇ Reˇsen´ı: Pˇredpoklady pro pouˇzit´ı postupu jsou splnˇeny. 1. H0 : µ1 = µ2 (opotˇrebovanost motoru nema´ vliv na spotˇrebu benzinu) HA : µ1 6= µ2 (opotˇrebovanost motoru ma´ vliv na spotˇrebu benzinu) Test hypotézy je dvoustranný. 2. α = 0.05. ˇu ˚ volnosti n − 1, tj. ±t0.025 = ±3.18. 3. Kritické hodnoty jsou ±tα/2 s poˇctem stupn ´ ˚ vypoˇcteme 4. Z dany´ ch udaj u −1 , d¯ = 40

s2d =

a tud´ızˇ tc =

2 · 0.00625 + 0.0306 + 0.000255 3

−1 2 · = −0.21 40 0.055825

´ 5. Protoˇze −3.18 < tc < 3.18, nezam´ıtame H0 . ´ ´ data nedavaj´ ´ ˚ pro to, abychom udˇelali 6. Na 5% hladinˇe vyznamnosti nam ı dostatek argumentu ´ er, zˇe na spotˇrebu benzinu ma´ vliv opotˇrebovanost motoru. zavˇ

7.6

Test hypot´ ezy o shodˇ e dvou pod´ıl˚ u pˇ ri nez´ avisl´ ych v´ ybˇ erech

Tento odstavec pojednává o metodˇe porovnán´ı pod´ıl˚ u dvou základn´ıch soubor˚ u, která vyuˇz´ıvá informac´ı z´ıskan´ ych ze dvou nezávisl´ ych v´ ybˇer˚ u. Pouˇzijeme v´ ysledk˚ u kapitoly 5, zvláˇstˇe pak tvrzen´ı 5.9, které stanov´ı rozdˇelen´ı rozd´ılu dvou v´ ybˇerov´ ych pod´ıl˚ u pro nezávislé v´ ybˇery velk´ ych rozsah˚ u. Toto tvrzen´ı je teoretick´ y základ nutn´ y pro odvozen´ı statistick´ ych indukˇcn´ıch metod pro porovnán´ı dvou dvoukategoriáln´ıch rozdˇelen´ı. Pˇredpokládejme, ˇze máme náhodn´ y v´ ybˇer o rozsahu n1 z dvoukategoriáln´ıho základn´ıho souboru s pod´ılem p1 a náhodn´ y v´ ybˇer o rozsahu n2 z dvoukategoriáln´ıho základn´ıho souboru s pod´ılem p2 . Dále pˇredpokládejme, ˇze v´ ybˇery jsou nezávislé a rozsahy v´ ybˇer˚ u jsou velké. C´ılem je porovnat pod´ıly obou základn´ıch soubor˚ u. Nejprve pouˇzijeme tvrzen´ı 5.9 ke stanoven´ı testové statistiky. 113

K APITOLA 7


Nulová hypotéza pro test umoˇzn ˇuj´ıc´ı porovnán´ı pod´ıl˚ u dvou dvoukategoriáln´ıch základn´ıch soubor˚ u je H0 : p1 = p2

(pod´ıly základn´ıch soubor˚ u jsou shodné).

Je-li tato hypotéza správná, pak p1 − p2 = 0 a tud´ıˇz normovaná náhodná veliˇcina v tvrzen´ı 5.9 je pˆ1 − pˆ2 Z=q , p(1 − p)/n1 + p(1 − p)/n2 kde p znaˇc´ı spoleˇcnou hodnotu p1 a p2 . Jednoduchou u ´pravou dostaneme náhodnou veliˇcinu pˆ1 − pˆ2

Z=q

q

p(1 − p) (1/n1 ) + (1/n2 )

.

(7.14)

Tuto statistiku vˇsak nem˚ uˇzeme pouˇz´ıt jako testovou charakteristiku, nebot’ p neznáme. Odhadneme p pomoc´ı v´ ybˇerové informace. Nejlepˇs´ı odhad p z´ıskáme sdruˇzen´ım dat a z´ıskáme pod´ıl pP , kter´ y budeme naz´ yvat sdruˇ zen´ y v´ ybˇ erov´ y pod´ıl pˆP = (x1 + x2 )/(n1 + n2 ). Nahrazen´ım p v rovnici (7.14) jeho odhadem pˆP dostaneme náhodnou veliˇcinu q

(ˆ p1 − pˆ2 ) q

pˆP (1 − pˆP ) (1/n1 ) + (1/n2 )

.

Tato veliˇcina m˚ uˇze b´ yt pouˇz´ıta jako testová statistika a stejnˇe jako náhodná veliˇcina v (7.14) má za platnosti nulové hypotézy pˇribliˇznˇe normované normáln´ı rozdˇelen´ı pro velké v´ ybˇery. Následuj´ıc´ı postup pro test hypotézy o shodˇe dvou pod´ıl˚ u budeme naz´ yvat dvouv´ ybˇ erov´ y z-test pro dva pod´ıly . Postup 7.10

Dvouvybˇ H0 : p1 = p2 ´ erovy´ z-test pro dva pod´ıly s nulovou hypotezou ´

• Pˇredpoklady a. Nezávislé v´ ybˇery b. Vˇsechny v´ ybˇerové hodnoty x1 , n1 − x1 , x2 a n2 − x2 alespoˇ n rovny 5. (ˆ p1 − pˆ2 ) q • Testov´ a statistika: Z = q ≈ N (0, 1) pˆP (1 − pˆP ) (1/n1 ) + (1/n2 ) • Kritické hodnoty H0 : pro dvoustrann´ y test: ±zα/2 pro levostrann´ y test: −zα pro pravostrann´ y test: zα Pˇ r´ıklad 7.9 Ilustrace postupu 7.10 ˇ byly poˇr´ızeny ´ celem porovnan´ ´ ı pod´ılu muˇzu-kuˇ ˚ ´ u ˚ a pod´ılu zˇ en-kuˇraˇcek v populaci CR Za uˇ rak ´ ˚ a 2200 zˇen. Mezi vybranymi ´ ´ u ˚ a mezi vybrany´ mi nahodn´ e vy´ bˇery 2000 muˇzu muˇzi bylo 500 kuˇrak ´ data dostatek informace pro to, abychom udˇelali zavˇ ´ er, zˇe zˇenami 440 kuˇraˇcek. Poskytuj´ı nam ˇ pˇrevyˇsuje pod´ıl vˇsech zˇ en-kuˇraˇcek v CR? ˇ ˚ ´ u˚ v CR pod´ıl vˇsech muˇzu-kuˇ rak Testujte na 5% hladinˇe

114

´ TEST DOBR E´ SHODY 7.7 C HÍ - KVADR AT ´ vyznamnosti. ˇ ˇ respektive vˇsech kuˇraˇcek v CR. ˇ ´ u˚ v CR Reˇsen´ı: Necht’ p1 respektive p2 oznaˇcuje pod´ıl vˇsech kuˇrak ˚ ´ u ˚ nen´ı vyˇssˇ´ı) 1. H0 : p1 = p2 (pod´ıl muˇzu-kuˇ rak ˚ ´ u ˚ je vyˇssˇ ´ı). HA : p1 > p2 (pod´ıl muˇzu-kuˇ rak ´ Test hypotézy je pravostranny. 2. α = 0.05 3. Kriticka´ hodnota pro pravostranný test je z0.05 = 1.645. ´ erové pod´ıly a sdruˇzeny´ vybˇ ´ erovy´ pod´ıl pˆP : pˆ1 = 500/2000 = 0.25, pˆ2 = 440/2200 = 0.20 4. Urˇc´ıme vybˇ a 500 + 440 pP = = 0.2238. 2000 + 2200 Tud´ızˇ hodnota testové statistiky je 0.25 − 0.20 p = 3.8828. 0.224(1 − 0.224) (1/2000) + (1/2200)

zc = p

´ 5. Vypoˇctena´ hodnota testové statistiky je zc = 3.8828. Tedy je zc > 1.645 a tud´ızˇ zam´ıtame H0 . ´ ´ 6. Výsledky testu jsou statisticky vyznamn´ e na 5% hladinˇe vyznamnosti Na této hladinˇe poskytuj´ı ˇ je vˇetˇs´ı ´ er, zˇe pod´ıl vˇsech muˇzu-kuˇ ˚ ´ u˚ v CR data dostatek informace pro to, abychom udˇelali zavˇ rak ˇ neˇz pod´ıl vˇsech zˇen-kuˇraˇcek v CR.

7.7

Ch´ı-kvadr´ at test dobr´ e shody

Testy dobré shody je kategorie test˚ u, které umoˇzn ˇuj´ı na pˇredem zvolené hladinˇe v´ yznamnosti α testovat nulovou hypotézu H0 , ˇze dan´ y náhodn´ y v´ ybˇer byl proveden z rozdˇelen´ı stanoveného typu, ale pˇr´ıpadnˇe s neznám´ ymi parametry. Je tedy napˇr´ıklad moˇzné testovat hypotézu, ˇze pˇr´ısluˇsné rozdˇelen´ı je N (µ, σ 2 ) se znám´ ymi nebo neznám´ ymi parametry µ a σ 2 . Ch´ı-kvadrát test dobré shody se pouˇz´ıvá k testován´ı hypotézy o procentn´ım rozdˇelen´ı v základn´ım souboru nebo o pravdˇepodonostn´ım rozdˇelen´ı náhodné veliˇciny. Je to jednoduch´ y test zaloˇzen´ y na rozd´ılu mezi pozorovanými (empirickými) a oˇcek´ avanými (teoretickými) ˇcetnostmi. Necht’ X je náhodná veliˇcina z rozdˇelen´ı s distribuˇcn´ı funkc´ı F0 (x). Rozdˇelme obor hodnot ha, bi, kter´ ych m˚ uˇze náhodná veliˇcina nab´ yvat na k ≥ 2 disjunktn´ıch tˇr´ıd Ii = (ai−1 , ai i, i = 1, 2, ..., k, a = a0 < a1 < ... < ak = b, krajn´ı intervaly I1 a Ik jsou ˇcasto neohraniˇcené. Pˇredpokládejme, ˇze pi je pravdˇepodobnost toho, ˇze náhodná veliˇcina, která má testované Pk ale necht’ (X1 , · · · , Xn ) rozdˇelen´ı nabude hodnoty z i-té tˇr´ıdy Ii , pi > 0, i=1 pi = 1. D´ je náhodn´ y v´ ybˇer z rozdˇelen´ı s distribuˇcn´ı funkc´ı F0 (x) a (x1 , · · · , xn ) pozorovaná hodnota tohoto v´ ybˇeru. Oznaˇcme ni poˇcet náhodn´ ych veliˇcin X1 , · · · , Xn , které nabyly hodnoty z ité tˇr´ıdy, i = 1, · · · , k. Tyto tˇr´ıdn´ı ˇcetnosti odpov´ıdaj´ıc´ı interval˚ um Ii (i = 1, · · · , k ) se P naz´ yvaj´ı v rámci daného testu pozorovan´ e (empirick´ e) ˇ cetnosti . Plat´ı ki=1 ni = n. V´ yrazy npi se naz´ yvaj´ı v rámci daného testu oˇ cek´ avan´ e (teoretick´ e) ˇ cetnosti. Je zˇrejmé, Pk ˇze i=1 npi = n. Na pˇredem zvolené hladinˇe v´ yznamnosti budeme testovat nulovou hypotézu H0 , ˇze náhodná veliˇcina (základn´ı soubor) má urˇcité rozdˇelen´ı pˇri alternativn´ı hypotéze HA , ˇze náhodná veliˇcina (základn´ı soubor) má rozdˇelen´ı jiné neˇz to, které je specifikované nulovou hypotézou. Chceme-li zjistit, jak dobˇre se pozorované a oˇcekávané ˇcetnosti shoduj´ı, je logické zkoumat rozd´ıly ni − npi . Seˇc´ıst tyto rozd´ıly za u ´ˇcelem z´ıskat celkov´ y rozd´ıl“ nen´ı uˇziteˇcné vzhledem ” 115

K APITOLA 7


k tomu, ˇze souˇcet je roven nule. M´ısto toho ˇctverec kaˇzdé odchylky vydˇel´ıme pˇr´ısluˇsnou oˇcekávanou ˇcetnost´ı. Dostaneme tak hodnoty (ni − npi )2 /npi . Souˇcet tˇechto veliˇcin k X

(ni − npi )2 /npi

(7.15)

i=1

je statistika, která je pouˇzita k tomu, abychom zjistili jak dobˇre nebo ˇspatnˇe se shoduj´ı pozorované a oˇcekávané ˇcetnosti. Je-li nulová hypotéza pravdivá, pak pozorované a oˇcekávané ˇcetnosti by mˇely b´ yt zhruba Pk 2 stejné a tud´ıˇz statistika i=1 (ni − npi ) /npi bude m´ıt malou hodnotu. Jin´ ymi slovy velké hodnoty poskytuj´ı argumenty proti nulové hypotéze. Tvrzen´ı 7.2

T ESTOV A´ STATISTIKA

´ SHODY PRO TEST DOBR E

Uvaˇzujme ch´ı-kvadrát test dobré shody, ve kterém nulová hypotéza je specifikovaná rozdˇelen´ım pravdˇepodobnost´ı náhodné veliˇciny. Pˇredpokládejme, ˇze rozsah v´ ybˇeru je velk´ y. Za platnosti nulové hypotézy má náhodná veliˇcina 2

χ =

k X (ni − npi )2

npi

i=1

=

k X n2i i=1

npi

−n

pˇribliˇznˇe χ2 -rozdˇelen´ı s k − 1 stupni volnosti. Jelikoˇz nulová hypotéza bude zam´ıtnuta pouze kdyˇz testová statistika bude velká, obor zam´ıtnut´ı je vˇzdy vpravo; to je test hypotézy je vˇzdy pravostrann´ y. Ch´ı-kvadrát test dobré shody prob´ıhá obecnˇe v následuj´ıc´ıch kroc´ıch. Postup 7.11

Ch´ı-kvadrat ´ test dobre´ shody

Pˇredpoklady a. Vˇsechny oˇcekávané ˇcetnosti jsou alespoˇ n rovny 1. b. Nejv´ yˇse 20% oˇcekávan´ ych ˇcetnost´ı je menˇs´ı neˇz 5. 1. Formulujte nulovou a alternativn´ı hypotézu. 2. Vypoˇctˇete oˇcekávané ˇcetnosti npi , kde n znaˇc´ı rozsah v´ ybˇeru a pravdˇepodobnost tˇr´ıdy pi je specifikovaná nulovou hypotézou, i = 1, 2, · · · , k. 3. Ovˇeˇrte, zda oˇcekávané ˇcetnosti splˇ nuj´ı pˇredpoklady a a b. Pokud nesplˇ nuj´ı, test hypotézy by nemˇel b´ yt pouˇzit. 4. Zvolte hladinu v´ yznamnosti α. 5. Kritická hodnota je χ2α , s k − 1 stupni volnosti. Obor zam´ıtnut´ı H0 je (χ2α ; ∞). 6. Vypoˇctˇete hodnotu testové statistiky χ2c =

k X (ni − npi )2 i=1

npi

kde ni jsou pozorované ˇcetnosti. 116

=

k X n2i i=1

npi

− n,

´ TEST DOBR E´ SHODY 7.7 C HÍ - KVADR AT

7. Jestliˇze hodnota testové statistiky χ2c padne do oboru zam´ıtnut´ı, zam´ıtnˇete H0 ; jinak nezam´ıtejte H0 . Test je pouze pˇribliˇzn´ y s t´ım, ˇze pˇresná hladina v´ yznamnosti α je dosaˇzena aˇz pˇri n → ∞. Test je pouze pˇribliˇzn´ y s t´ım, ˇze pˇresná hladina v´ yznamnosti α je dosaˇzena aˇz pˇri n → ∞. Pozn´ amka: Pokud jde o pˇredpoklad b, v mnoha uˇcebnic´ıch se doporuˇcuje, aby vˇsechny oˇcekávané ˇcetnosti byly nejménˇe rovny 5. V´ yzkumy ukázaly, jak poznamenal statistik W.G. Cochran, ˇze tento poˇzadavek je pˇr´ıliˇs omezuj´ıc´ı. Ch´ı-kvadrát test dobré shody je metoda, která se také pouˇz´ıvá pro test hypotézy o rozdˇelen´ı základn´ıch soubor˚ u, v nichˇz kaˇzdá statistická jednotka je klasifikovaná do jedné z k disjunktn´ıch tˇr´ıd. Jestliˇze poˇcet tˇr´ıd je 2, to je k = 2, pak základn´ı soubor je dvoukategoriáln´ı. V tomto pˇr´ıpadˇe ch´ı-kvadrát test dobré shody je ekvivalentn´ı s jednov´ ybˇerov´ ym z-testem pro pod´ıl základn´ıho souboru. Pˇ r´ıklad 7.10 Ilustrace postupu 7.7 ˇ edsku, rozdˇelené ´ ´ k dispozici udaje ´ ´ Pˇredpokladejte, zˇe mate o nahodn´ em vy´ bˇeru 88 porodu˚ ve Sv´ ˚ e dlouhých sezon do 4 tˇr´ıd. Muˇ ˚ zete na zakladˇ ´ ´ ´ ˚ uvedeny´ ch podle ruznˇ e danych i vypoˇctených udaj u ˇ edsku rod´ı rovnomˇernˇe po cely´ rok? ´ ´ er, zˇe se dˇeti ve Sv´ v nasleduj´ ıc´ı tabulce udˇelat zavˇ ´ Dané udaje obdob´ı jaro (4-6) léto (7-8) podzim (9-10) zima (11-3)

ni 27 20 8 33 88

pi 0.250 0.170 0.167 0.413 1.000

´ Vypoˇctené udaje npi ni − npi (ni − npi )2 /npi 22.0 5.0 1.14 15.0 5.0 1.67 14.7 -6.7 3.05 36.3 -3.3 0.30 88 0.0 χ2c = 6.16

ˇ sen´ı: Reˇ ´ y rozd´ıl v porodnosti mezi sezonami. 1. H0 : Nen´ı zˇadn´ HA : Je rozd´ıl v porodnosti mezi sezonami. ´ ˚ ze uskuteˇcnit v kteroukoNejprve uvaˇzujme vyznam nulové hypotézy, zˇe se kaˇzdý porod muˇ liv roˇcn´ı dobu s pravdˇepodobnost´ı odpov´ıdaj´ıc´ı délce obdob´ı. Napˇr´ıklad z tabulky zjist´ıme, zˇe pravdˇepodobnost narozen´ı d´ıtˇete na jaˇre je 91/365 = 0.25 = p1 za pˇredpokladu, zˇe poˇcet dn´ı v roce je 365. Podobnˇe vypoˇcteme i ostatn´ı pravdˇepodobnosti v tabulce. ´ 2. Teoretické cˇ etnosti narozen´ı za platnosti nulové hypotézy dostaneme vynasoben´ ım rozsahu ´ eru (n = 88) pˇr´ısluˇsnou pravdˇepodobnost´ı pi . Napˇr. pro letn´ı obdob´ı dostaneme 88 · 0.17 = vybˇ 15.0 = np2 . 3. Pˇredpoklady a,b postupu 7.11 jsou splnˇeny. Dokonce vˇsechny teoretické cˇ etnosti jsou vˇetˇs´ı neˇz 5. 4. α = 0.05 ´ ˇu ˚ volnosti ν = 4 − 1 = 3. V tabulce IV. najdeme 5. Protoˇze mame 4 kategorie, je poˇcet stupn χ20.05 = 7.81. 6. Seˇcten´ım vˇsech hodnot v posledn´ım sloupci tabulky dostaneme hodnotu testové statistiky χ2c = 6.16. 7. Vypoˇctena´ hodnota testové statistiky je menˇs´ı neˇz kriticka´ hodnota, tj. χ2c = 6.16 < 7.81 = χ20.05 . ´ Tud´ızˇ H0 nezam´ıtame. ´ ´ zˇe na 5% hladinˇe 8. Vysledky testu nejsou statisticky významné na 5% hladinˇe. To znamena,

117

K APITOLA 7


´ ´ ˚ pro to, abychom udˇelali zavˇ ´ er, zˇe se dˇeti ve vyznamnosti data nedavaj´ ı dostatek argumentu ˇ edsku nerod´ı rovnomˇernˇe po cely´ rok. Sv´

7.8

Ch´ı-kvadr´ at test nez´ avislosti

Nezávislost dvou náhodn´ ych veliˇcin byla v kapitole 4 charakterizována pomoc´ı srovnán´ı sdruˇzeného rozdˇelen´ı s margináln´ım rozdˇelen´ım obou veliˇcin. Uvaˇzujme dvˇe náhodné veliˇciny X a Y a necht’ pij je sdruˇzené rozdˇelen´ı pravdˇepodobnost´ı (dvourozmˇerné) tˇechto veliˇcin a qi a rj jsou pˇr´ısluˇsná margináln´ı rozdˇelen´ı. Pak veliˇciny X a Y jsou statisticky nezávislé, jestliˇze pij = qi · rj . V praktick´ ych situac´ıch máme k dispozici pouze náhodn´ y v´ ybˇer z dvourozmˇerného rozdˇelen´ı a mus´ıme pouˇz´ıt inferenˇcn´ı metodu, abychom rozhodli zda sledované náhodné veliˇciny jsou statisticky závislé. Jednou z nejˇcastˇeji pouˇz´ıvan´ ych metod je ch´ı-kvadrát test nezávislosti. Tvrzen´ı 7.3

T ESTOV A´ STATISTIKA

´ PRO TEST NEZ AVISLOSTI

Uvaˇzujme ch´ı-kvadrát test nezávislosti, ve kterém nulová hypotéza stanov´ı, ˇze dvˇe charakteristiky X a Y základn´ıho souboru jsou statisticky nezávislé. Pˇredpokládejme, ˇze rozsah v´ ybˇeru n je velk´ y. Je-li nulová hypotéza o statistické nezávislosti pravdivá, pak náhodná veliˇcina k X c X (nij − noij )2 2 χ = noij i=1 j=1 má pˇribliˇznˇe χ2 -rozdˇelen´ı s (k−1)(c−1) stupni volnosti, kde k je poˇcet ˇrádk˚ u a c je sloupc˚ u v kombinaˇcn´ı (kontingenˇcn´ı) tabulce. Pozorované ˇcetnosti jsou znaˇceny nij a oˇcekávané ˇcetnosi noij . Ch´ı-kvadrát test nezávislosti prob´ıhá obecnˇe v následuj´ıc´ıch kroc´ıch: Postup 7.12

Ch´ı-kvadrat ´ test nezavislosti ´

Pˇredpoklady a. Vˇsechny oˇcekávané ˇcetnosti jsou alespoˇ n rovny 1. b. Nejv´ yˇse 20% oˇcekávan´ ych ˇcetnost´ı je menˇs´ı neˇz 5. 1. Formulujte nulovou a alternativn´ı hypotézu. 2. Vypoˇctˇete oˇcekávané ˇcetnosti noij =

ni• n•j , i = 1, · · · , k, j = 1, · · · , c, n

(7.16)

kde n znaˇc´ı rozsah v´ ybˇeru a ni• =

c X

nij ,

j=1

n•j =

k X

nij .

(7.17)

i=1

3. Ovˇeˇrte, zda oˇcekávané ˇcetnosti splˇ nuj´ı pˇredpoklady a a b Pokud nesplˇ nuj´ı, test hypotézy by nemˇel b´ yt pouˇzit. 118

´ TEST NEZ AVISLOSTI ´ 7.8 C HÍ - KVADR AT

4. Zvolte hladinu v´ yznamnosti α. 5. Kritická hodnota je χ2α s (k − 1)(c − 1) stupni volnosti, kde k je poˇcet ˇra´dk˚ u a c je poˇcet sloupc˚ u v kombinaˇcn´ı tabulce. Pouˇzijte tabulku IV. Obor zam´ıtnut´ı H0 je (χ2α , ∞). 6. Vypoˇctˇete hodnotu testové statistiky χ2c =

k X c X (nij − noij )2 i=1 j=1

noij

,

kde nij jsou pozorované ˇcetnosti a noij jsou oˇcekávané ˇcetnosti. 7. Jestliˇze hodnota testové statistiky χ2c padne do oboru zam´ıtnut´ı, zam´ıtnˇete H0 ; jinak nezam´ıtejte H0 .

Pˇ r´ıklad 7.11 Ilustrace postupu 7.8 ´ k dispozici nahodn ´ ˚ vysoky´ ch sˇ kol, rozdˇeleny´ nasleduj´ ´ ˚ Mate y´ vy´ bˇer 1367 absolventu ıc´ım zpusobem Pohlav´ı Muˇz ˇ Zena Celkem

ˇ vysokoˇskolského vzdˇelan´ ´ ı Stupen Bc Mgr Dr Celkem 534 144 22 700 515 141 11 667 1049 285 33 1367

ˇ vzdˇelan´ ´ ı zavis´ ´ ı na pohlav´ı. Testujte na 5% hladinˇe vyznamnosti. ´ Rozhodnˇete, zda stupen ˇ Reˇsen´ı: ˇ vzdˇelan´ ´ ı a pohlav´ı jsou statisticky nezavisl´ ´ 1. H0 : Stupen e. ˇ vzdˇelan´ ´ ı a pohlav´ı jsou statisticky zavisl´ ´ HA : Stupen e. ´ ´ 2. Oˇcekavan´ e cˇ etnosti vypoˇcteme podle vzorce (7.16). Dostaneme nasleduj´ ıc´ı hodnoty: n11 = 537.16, n12 = 145.94, n13 = 16.90, n21 = 511.84, n13 = 139.06, n23 = 16.10. ´ 3. Vˇsechny oˇcekavan´ e cˇ etnosti jsou vˇetˇs´ı neˇz 1 a dokonce vˇsechny jsou vˇetˇs´ı neˇz 5, takˇze podm´ınky pro pouˇzit´ı postupu jsou splnˇeny. 4. α = 0.05 ˇ u˚ volnosti ν = (3 − 1)(2 − 1) je χ20.05 = 5.99. Kriticky´ obor je 5. Kriticka´ hodnota pro poˇcet stupn (5.99, ∞) 6. Hodnota testové statistiky je χ2c = 3.247. 7. Vypoˇctena´ hodnota testové statistiky nepadne do kritického oboru. ´ ´ ı na pohlav´ı nezam´ıtame. ´ 8. Hypotézu o nezavislosti stupnˇe dosaˇzeného vysokoˇskolského vzdˇelan´

119

Kapitola 8 Regresn´ı a korelaˇ cn´ı anal´ yza ˇ Casto potˇrebujeme vˇedˇet, zda dvˇe nebo v´ıce veliˇcin jsou spolu vázány a pokud ano, jak´ y je jejich vzájemn´ y vztah. V této kapitole se zamˇeˇr´ıme na hledán´ı, zkoumán´ı a hodnocen´ı souvislost´ı, závislost´ı mezi dvˇema statistick´ ymi znaky. Rozliˇsujeme tzv. pevné a volné závislosti mezi veliˇcinami. Pevnou z´ avislost´ı rozum´ıme vztah, kdy kaˇzdé hodnotˇe jedné veliˇciny odpov´ıdá jedna a jen jedna hodnota jin´ ych veliˇcin a podobnˇe i naopak. S takov´ ymi závislostmi se vˇetˇsinou setkáváme v teoretické oblasti. R˚ uzné obory formuluj´ı zákonitosti vztah˚ u mezi promˇenn´ ymi na základˇe deduktivn´ıch u ´vah a v souladu s empirick´ ymi zkuˇsenostmi. Takov´ ym zp˚ usobem vznikly napˇr´ıklad fyzikáln´ı zákony (Newton˚ uv gravitaˇcn´ı zákon, Ohm˚ uv zákon). Volnou z´ avislost´ı rozum´ıme vztah, kdy hodnotám napˇr´ıklad jedné veliˇciny odpov´ıdaj´ı r˚ uzné hodnoty jiné veliˇciny, ale pˇri zmˇenách hodnot tˇechto veliˇcin se projevuje urˇcitá obecná tendence. V pˇr´ıpadˇe, ˇze se jedná o volnou závislost mezi kvantitavn´ımi statistick´ ymi znaky, hovoˇr´ıme o statistick´ e z´ avislosti. S voln´ ymi závislostmi se setkáváme témˇeˇr v´ yhradnˇe v praktick´ ych situac´ıch. Závislost m˚ uˇze b´ yt jednostrann´ a nebo vzájemná. K poznán´ı, matematickému popisu statistick´ ych závislost´ı a k hodnocen´ı závˇer˚ u o vztahu zkouman´ ych veliˇcin slouˇz´ı metody regresn´ı a korelaˇcn´ı analýzy. Jednostrann´ ymi závislostmi se zab´ yvá regresn´ı anal´ yza. Jedná se o situaci, kdy proti sobˇe stoj´ı nezávislá veliˇcina a závislá veliˇcina nebo veliˇciny a obvykle se zkoumá obecná tendence ve zmˇenách závislé veliˇciny vzhledem ke zmˇenám nezávisl´ ych veliˇcin. Vzájemn´ ymi, vˇetˇsinou lineárn´ımi závislostmi se zab´ yvá korelaˇ cn´ı anal´ yza. V korelaˇcn´ı anal´ yze se klade d˚ uraz v´ıce na s´ılu (intenzitu) vzájemného vztahu mezi veliˇcinami. Z v´ ypoˇcetn´ıch a interpretaˇcn´ıch hledisek docház´ı ke znaˇcnému prol´ınán´ı obou pˇr´ıstup˚ u. V odstavc´ıch 8.1-8.4 se budeme zab´ yvat popisn´ ymi metodami v lineárn´ı regresi a korelaci. Ukáˇzeme, jak urˇcit regresn´ı pˇr´ımku pro mnoˇzinu dvojic dat a jak ji pouˇz´ıt k predikci hodnot závislé veliˇciny. Zavedeme pojmy koeficient determinace a lineárn´ı korelaˇcn´ı koeficient pro mnoˇzinu dvojic dat a budeme diskutovat jejich interpretaci. V zb´ yvaj´ıc´ıch odstavc´ıch se budeme zab´ yvat inferenˇcn´ımi metodami v lineárn´ı regresi a korelaci. Ukáˇzeme, jak m˚ uˇzeme regresn´ı rovnici pouˇz´ıt k urˇcen´ı intervalu spolehlivosti pro stˇredn´ı hodnotu závislé veliˇciny pro urˇcitou konkrétn´ı hodnotu nezávislé veliˇciny a jak lineárn´ı korelaˇcn´ı koeficient r m˚ uˇzeme pouˇz´ıt k stanoven´ı, zda existuje záporná ˇci kladná lineárn´ı korelace mezi závislou a nezávislou veliˇcinou. Nakonec pop´ıˇseme obecn´ y regresn´ı model a struˇcnˇe se zm´ın´ıme o nˇekter´ ych speciáln´ıch pˇr´ıpadech. Na závˇer této kapitoly pop´ıˇseme aplikaci regresn´ıho modelu pˇri modelován´ı denn´ı automobilové dopravy. 120

´ Í ROVNICE S JEDNOU NEZ AVISLOU ´ ˇ NNOU 8.1 L INE ARN PROM E

8.1

Line´ arn´ı rovnice s jednou nez´ avislou promˇ ennou

K tomu, abychom pochopili lineárn´ı regresi, je tˇreba si pˇripomenout lineárn´ı rovnice s jednou nezávislou promˇennou. Obecn´ y tvar line´ arn´ı rovnice s jednou nezávislou promˇennou m˚ uˇzeme vyjádˇrit ve tvaru y = b0 + b1 x, (8.1) kde b0 a b1 jsou konstanty (pevná ˇc´ısla), x je nezávislá veliˇcina a y je závislá veliˇcina. Grafem lineárn´ı rovnice s jednou nezávislou promˇennou je pˇ r´ımka; kaˇzdá pˇr´ımka, která nen´ı kolmá na osu x, m˚ uˇze b´ yt urˇcena takovou rovnic´ı. azek 8.1 Graf y = b0 + b1 x ˇ ısla b0 a b1 v lineárn´ı rovnici y = b0 + b1 x maj´ı Obr´ C´ y ˇ ıslo b0 je taková d˚ uleˇzitou geometrickou interpretaci. C´ hodnota veliˇciny y, ve které pˇr´ımka urˇcená rovnic´ı (8.1) y = b0 + b1 x ˇ ıslo b0 budeme naz´ ˇ ıslo b1 prot´ıná osu y. C´ yvat y-´ usek. C´ je m´ırou strmosti (ˇsikmosti) pˇr´ımky; pˇresnˇeji b1 udává jak vzroste (klesne) hodnota veliˇciny y na pˇr´ımce, kdyˇz b1 ˇ ıslo se hodnota veliˇciny x zvˇetˇs´ı (zmenˇs´ı) o jednotku. C´ (0, b0 ) b1 naz´ yvá smˇ ernice (sklon) pˇr´ımky y = b0 + b1 x. b0 Lineárn´ı rovnice s jednou nezávislou promˇennou se ˇcasto pouˇz´ıvaj´ı pˇri aplikac´ıch matematiky v r˚ uzn´ ych obx lastech, vˇcetnˇe managementu, v bˇeˇzném ˇzivotˇe, v sociáln´ıch a stejnˇe tak i ve fyzikáln´ıch vˇedách. Pˇ r´ıklad 8.1 Line´ arn´ı rovnice Poradenska´ firma nab´ız´ı své sluˇzby. Cena za poskytnuté sluˇzby je 300 Kˇc za hodinu plus pevna´ ´ ´ ı ovˇsem na poˇctu hodin, potˇrebných sazba 350 Kˇc. Celkova´ cena, kterou zakazn´ ık zaplat´ı, zavis´ ´ ı této sluˇzby.Urˇcete rovnici, ktera´ urˇcuje celkovou cenu za poskytnutou sluˇzbu v za´ k vykonan´ ´ ´ ı poˇzadované sluˇzby. vislosti na poˇctu hodin nutnych k vykonan´ ˇ sen´ı: Necht’ x vyjadˇruje poˇcet hodin potˇrebnych ´ ´ ı poˇzadované sluˇzby a y necht’ je Reˇ k vykonan´ ´ celkova´ cena, kterou zaplat´ı zakazn´ ık. Rovnice, ktera´ vyjadˇruje celkovou cenu za vykonanou ´ v zavislosti ´ ´ ı rovnice; praci na poˇctu hodin je pak y = 350 + 300x. Rovnice y = 350 + 300x je linearn´ ˚ zeme urˇcit pˇresnou cenu za praci, ´ ´ b0 = 350 a b1 = 300. Pomoc´ı této rovnice muˇ zname-li celkovy´ ´ ı prace. ´ poˇcet hodin nutny´ k vykonan´

8.2

Regresn´ı rovnice

V pˇr´ıkladu 8.1 jsme pro danou dobu nutnou k vykonán´ı urˇcité práce, mohli pouˇz´ıt rovnici y = 350+300x ke stanoven´ı pˇresné ceny za práci. V praxi vˇsak nejsou obvyklé tak jednoduché vztahy mezi veliˇcinami, ve kter´ ych je jedna veliˇcina pˇresnˇe urˇcena jinou veliˇcinou. Mnohem ˇcastˇeji se setkáváme se situacemi, kdy se mus´ıme spokojit pouze s hrub´ ymi odhady (predikcemi). Napˇr´ıklad nem˚ uˇzeme pˇresnˇe stanovit pˇresnou cenu y auta urˇcité znaˇcky a typu, pokud neznáme jeho stáˇr´ı x. Dokonce pˇri zvoleném stáˇr´ı auta, napˇr´ıklad 5 let, je cena auta r˚ uzná pro r˚ uzná auta téˇze znaˇcky a téhoˇz typu. Mus´ıme se spokojit s hrub´ ym odhadem ceny 3 roky starého auta urˇcité znaˇcky a typu nebo s odhadem pr˚ umˇerné ceny vˇsech 3 roky star´ ych aut zm´ınˇené znaˇcky a typu. ˇ V tabulce 8.1 jsou uvedeny u ´daje o stáˇr´ı a cenˇe 11 vybran´ ych automobil˚ u znaˇcky Skoda Forman. Stáˇr´ı je vyjádˇreno poˇctem rok˚ u od roku v´ yroby a cena v tis´ıc´ıch Kˇc. 121

K APITOLA 8

´ R EGRESNÍ A KORELA Cˇ NÍ ANAL YZA

ˇ Tabulka 8.1 Stáˇr´ı a cena pro výbˇer 11 aut znaˇcky Skoda Forman Auto Stáˇr´ı x (roky) Cena y (v tis´ıc´ıch Kˇc)

1 5 85

2 4 103

3 6 70

4 5 82

5 5 89

6 5 98

7 6 66

8 6 95

9 10 11 2 7 7 169 70 48

Abychom z´ıskali urˇcitou pˇredstavu o moˇzném vztahu mezi stáˇr´ım a cenou auta, zobraz´ıme dvojice dat. Takové zobrazen´ı se naz´ yvá bodov´ y diagram. Bodov´ y diagram pro datové body (x, y) z pˇredcházej´ıc´ı tabulky je zobrazen v obr. 8.2. Aˇckoliv z bodového diagramu je zˇrejmé, ˇze datové body neleˇz´ı na pˇr´ımce, zdá se, ˇze jsou soustˇredˇeny kolem pˇr´ımky. Pokus´ıme se proloˇzit tˇemito datov´ ymi body pˇr´ımku. Pak bude ˇ moˇzné pouˇz´ıt tuto pˇr´ımku k urˇcen´ı ceny auta Skoda Forman pro zvolené stáˇr´ı auta. Vzhledem k tomu, ˇze shlukem datov´ ych bod˚ u bychom mohli proloˇzit mnoho r˚ uzn´ ych pˇr´ımek, potˇrebujeme metodu k urˇcen´ı nejlepˇs´ı“ pˇr´ımky. Metoda, kterou pouˇzijeme, je ” zaloˇzena na kriteriu naz´ yvaném kriterium nejmenˇ s´ıch ˇ ctverc˚ u. Podstatou tohoto kriteria je anal´ yza chyb, které udˇeláme, kdyˇz datov´ ymi body proloˇz´ıme pˇr´ımku. S t´ımto kriteriem se seznám´ıme na numericky velice jednoduchém pˇr´ıkladˇe. Pˇ r´ıklad 8.2 Kriterium nejmenˇs´ıch ˇctverc˚ u ´ ´ Uvaˇzujme dvojice dat zaznamenanych v nasleduj´ ıc´ı tabulce. x y

1 1

1 2

2 2

4 6

˚ zeme proloˇzit (nekoneˇcnˇe) mnoho pˇr´ımek cˇ tyˇrmi dvojicemi dat (x, y) z uvedené tabulky. Napˇr´ıklad Muˇ pˇr´ımku A : y = 0.50 + 1.25x nebo pˇr´ımku B : y = −0.25 + 1.50x. Oznaˇcme yˆ hodnotu veliˇciny y odpov´ıdaj´ıc´ı hodnotˇe veliˇciny x na pˇr´ımce. Napˇr´ıklad hodnota veliˇciny y urˇcena´ pˇr´ımkou A pro x = 2 je yˆ = 3 a hodnota veliˇciny y urˇcena´ pˇr´ımkou B pro x = 2 je yˆ = 2.75. Abychom mohli kvantitativnˇe zmˇerˇit, jak dobˇre pˇr´ımka vystihuje data, uvaˇzujme chyby e, ´ kterych se dopust´ıme, jestliˇze pˇr´ımku pouˇzijeme k predikci hodnot y dvojic dat (x, y). Skuteˇcna´ hodnota veliˇciny y pro x = 2 je y = 2. Tud´ızˇ chyba, které se dopust´ıme, pouˇzijeme-li pˇr´ımku A k predikci hodnoty y datového bodu (2, 2) je e = y − yˆ = 2 − 3 = 1. ´ ´ Spoˇc´ıtame chyby, kterych se dopust´ıme pouˇzit´ım pˇr´ımky A a pˇr´ımky B, pro vˇsechna data ´ v tabulce. K tomu, abychom mohli rozhodnout, ktera´ z tˇechto pˇr´ımek lépe vystihuje data, spoˇc´ıtame P ˚ chyb e2 . Pˇr´ımka, ktera´ dav ´ a´ menˇs´ı souˇcet cˇ tvercu ˚ chyb, v naˇsem pˇr´ıpadˇe pˇr´ımka souˇcet cˇ tvercu B, lépe vystihuje data. Mezi vˇsemi pˇr´ımkami je nejlepˇs´ı ta, pro kterou je souˇcet cˇ tvercu˚ chyb nejmenˇs´ı.

Kriterium nejmenˇ s´ıch ˇ ctverc˚ u Pˇr´ımka, která nejlépe vystihuje vztah mezi dvojicemi dat je ta, pro kterou je souˇcet P ˇctverc˚ u chyb S(b0 , b1 ) = ni=1 [yi − (b0 + b1 xi )]2 nejmenˇs´ı. 122

8.2 R EGRESNÍ ROVNICE

Definice 8.1

R EGRESN Í P Rˇ Í MKA A REGRESN Í ROVNICE

Regresn´ı pˇr´ımka: Pˇr´ımka, kter´ a ze vˇsech pˇr´ımek nejlépe vystihuje danou závislost mezi

zkouman´ ymi veliˇcinami ve smyslu kriteria nejmenˇs´ıch ˇctverc˚ u. Regresn´ı rovnice: Rovnice regresn´ı pˇr´ımky. Kriterium nejmenˇs´ıch ˇctverc˚ u nám ˇr´ıká, jakou vlastnost mus´ı m´ıt regresn´ı pˇr´ımka, kterou prokládáme daty, ale neˇr´ıká nám, jak naj´ıt takovou pˇr´ımku. Dˇr´ıve neˇz odvod´ıme vzorce pro urˇcen´ı regresn´ı rovnice (rovnice regresn´ı pˇr´ımky), zavedeme oznaˇcen´ı, které budeme v dalˇs´ım pouˇz´ıvat. Definice 8.2

ˇ Í POU Zˇ Í VAN E´ V REGRESI A KORELACI O ZNA CEN P

P

Definujme veliˇciny Sxx , Sxy a Syy : Sxx = ni=1 (xi − x¯)2 , Sxy = ni=1 (xi − x¯)(yi − y¯) P a Syy = ni=1 (yi − y¯)2 . Tyto tˇri veliˇciny se snadnˇeji poˇc´ıtaj´ı uˇzit´ım následuj´ıc´ıch vzorc˚ u. Sxx = Sxy = Syy =

Pn

i=1

Pn

i=1

Pn

i=1

Pn

x2i − (

i=1

xi )2 /n,

Pn

xi yi − (

i=1

Pn

yi2 − (

i=1

Pn

xi )(

i=1

yi )/n,

yi )2 /n.

Nyn´ı uvedeme vzorce, které nám umoˇzn´ı urˇcit regresn´ı pˇr´ımku pro mnoˇzinu dvojic dat. Vzorec 8.1

Regresn´ı rovnice

Regresn´ı rovnice pro mnoˇzinu n dvojic dat, neboli rovnice regresn´ı pˇr´ımky nejlepˇs´ı ve P smyslu minimalizace kriteria nejmenˇs´ıch ˇctverc˚ u S(b0 , b1 ) = ni=1 [yi − (b0 + b1 xi )]2 , je yˆ = b0 + b1 x, kde Sxy b1 = Sxx

a

n n X 1 X b0 = ( yi − b1 xi ) = y¯ − b1 x¯. n i=1 i=1

Nutná podm´ınka pro extrém funkce S(b0 , b1 ) dvou promˇenn´ ych b0 a b1 je, aby se obˇe parciáln´ı derivace rovnaly nule n X ∂S = −2 (yi − b0 − b1 xi ) = 0 , ∂b0 i=1

n X ∂S = −2 (yi − b0 − b1 xi )xi = 0, ∂b1 i=1

coˇz vede k tak zvané soustavˇ e norm´ aln´ıch rovnic nb0 + b1

n X i=1

xi =

n X

yi ,

i=1

b0

n X i=1

xi + b 1

n X i=1

x2i =

n X

xi y i ,

i=1

jej´ımˇz ˇreˇsen´ım dostaneme Pn

b1 =

¯)yi i=1 (xi − x , Pn ¯)2 i=1 (xi − x

Pn

(xi − x¯)yi x¯. ¯)2 i=1 (xi − x

b0 = y¯ − Pi=1 n

Odtud vzhledem k definici 8.2 dostaneme vzorce pro urˇcen´ı b1 a b0 ve tvaru uvedeném v´ yˇse. Postaˇcuj´ıc´ı podm´ınku pro extrém nen´ı tˇreba vyˇsetˇrovat, nebot’ funkce S(b0 , b1 ) je ryze konvexn´ı. 123

K APITOLA 8


Pˇ r´ıklad 8.3 Ilustrace vzorce 8.1 ˇ ´ ´ r´ı a ceny aut znaˇcky Skoda Tabulka 8.1 zobrazuje data tykaj´ ıc´ı se staˇ Forman. a ) Urˇcete regresn´ı pˇr´ımku pro data z tabulky. b ) Nakreslete regresn´ı pˇr´ımku a jednotlivé dvojice dat. ˇ c ) Co reprezentuje smˇernice regresn´ı pˇr´ımky cen aut Skoda Forman. d ) Pouˇzijte regresn´ı rovnici pro predikci ceny 3 a 4 roky starého auta. ˇ sen´ı: Reˇ ´ cet b0 a b1 . a ) K urˇcen´ı regresn´ı pˇr´ımky pouˇzijeme vzorce (8.1) pro vypoˇ Smˇernice regresn´ı pˇr´ımky je tud´ızˇ Pn Pn Pn 4732 − (58)(975)/11 i=1 xi yi − ( i=1 xi )( i=1 yi )/n b1 = = −20.26. = Pn Pn 2 2 326 − (58)2 /11 i=1 xi − ( i=1 xi ) /n ´ Usek, ktery´ vyt´ına´ pˇr´ımka na ose y je b0 =

n n X 1 X 1 ( yi − b1 [975 − (−20.26) · 58] = 195.47. xi ) = n i=1 11 i=1

Tud´ızˇ regresn´ı rovnice je yˆ = 195.47 − 20.26x. ˚ e hodnoty x do b ) K tomu, abychom sestrojili graf regresn´ı rovnice, mus´ıme dosadit dvˇe ruzn´ ˚ e body. Pouˇzijeme hodnoty x = 2 a x = 8. Odpov´ıdaj´ıc´ı regresn´ı rovnice, abychom dostali dva ruzn´ hodnoty y jsou yˆ = 195.47 − 20.26 · 2 = 154.95 a yˆ = 195.47 − 20.26 · 8 = 33.39. ´ ı dvˇema body (2, 154.95) a (8, 33.39) a jej´ı graf je na obr. 8.2 (b). Tud´ızˇ regresn´ı pˇr´ımka prochaz´ ˇ ´ zˇe pokles ceny auta Skoda c ) Smˇernice −20.26, nebo −20260 Kˇc znamena, Forman je pˇribliˇznˇe ˇ pro auta v rozpˇet´ı dvou aˇz sedmi let staˇ ´ r´ı. 20260 Kˇc za rok, alespon

y

y

180 170 160 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10

180 170 160 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10

Cena (v 1000 Kˇc)

Cena (v 1000 Kˇc)

ˇ Obr´ azek 8.2 Bodový diagram a regresn´ı pˇr´ımka pro st´ aˇr´ı a cenu aut znaˇcky Skoda Forman

1

2

3

4

5

6

St´ aˇr´ı (poˇcet rok˚ u)

7

8

x

yˆ = b0 + b1 x = 195.47 − 20.26x

1

(a) bodov´ y diagram

2

3

4

5

6


(b) regresn´ı pˇr´ımka

124

7

8

x

8.2 R EGRESNÍ ROVNICE ´ d ) Nakonec mame pouˇz´ıt regresn´ı rovnici yˆ = 195.47 − 20.26x k odhadu (predikci) ceny 3 roky a 4 ˇ ´ roky starého auta znaˇcky Skoda Forman. Pro 3 roky staré auto, mame x = 3 a tud´ızˇ predikovana´ cena je yˆ = 195.47 − 20.26 · 3 = 134.69, neboli 134690 Kˇc. Podobnˇe cena predikovana´ pomoc´ı regresn´ı rovnice pro 4 roky staré auto ˇ Skoda Forman je yˆ = 195.47 − 20.26 · 4 = 114.43, neboli 114430 Kˇc.

Otázky t´ ykaj´ıc´ı se pˇresnosti a vhodnosti takov´ ych predikc´ı budou diskutovány pozdˇeji.

8.2.1

Extrapolace

Jestliˇze bodov´ y diagram naznaˇcuje lineárn´ı závislost mezi dvˇema veliˇcinami, je rozumné pouˇz´ıt regresn´ı rovnici k odhadován´ı závislé veliˇciny y pˇri zvolené hodnotˇe nezávislé veliˇciny x, která leˇz´ı uvnitˇr oboru pozorovan´ ych hodnot x, ale ne nutnˇe pro hodnotu x, která leˇz´ı ’ vnˇe tohoto oboru, nebot lineárn´ı vztah mezi veliˇcinami tam nemus´ı platit. Regresn´ı rovnice odpov´ıdá u ´daj˚ um, ze kter´ ych byla urˇcena. Zvol´ıme-li hodnoty nezávislé veliˇciny jiné, neˇz ty, které jsme pouˇz´ıvali pˇri urˇcen´ı regresn´ı rovnice, nemus´ı b´ yt naˇse predikce hodnot veliˇciny y dobré. Riziko je t´ım vˇetˇs´ı, ˇc´ım je zvolená hodnota veliˇciny x vzdálenˇejˇs´ı od aritmetického pr˚ umˇeru x¯. Pouˇzit´ı regresn´ı rovnice k urˇcen´ı hodnot y odpov´ıdaj´ıc´ıch hodnotám x vnˇe oboru pozorovan´ ych hodnot x, se naz´ yvá extrapolace. Extrapolac´ı m˚ uˇzeme z´ıskat zcela nesprávné hodnoty pro y. Pˇr´ıklad závislosti ceny ojetého auta na jeho stáˇr´ı m˚ uˇze b´ yt pˇr´ıkladem toho, ˇze extrapolace m˚ uˇze dát nesmyslné v´ ysledky. Regresn´ı rovnice je yˆ = 195.47 − 20.26x a obor pozorovan´ ych hodnot veliˇciny x je od 2 do 7 let. Pˇredpokládejme, ˇze udˇeláme extrapolaci pouˇzit´ım regresn´ı ˇ rovnice, abychom odhadli cenu 11 let starého auta Skoda Forman. Predikovaná cena je yˆ = −27.39, neboli −27390 Kˇc. Nikdo nám zˇrejmˇe nezaplat´ı 27390 Kˇc, abychom si vzali jeho 11let staré auto. Tud´ıˇz, aˇckoliv vztah mezi stáˇr´ım a cenou auta se zdá b´ yt lineárn´ı v oboru od x = 2 do x = 7, nen´ı rozhodnˇe takov´ y mimo tento obor hodnot.

8.2.2

Odlehl´ a a vlivn´ a pozorov´ an´ı

Pojem odlehlé pozorován´ı jsme vysvˇetlili jiˇz v kapitole 1. V souvislosti s regres´ı je odlehl´ e pozorov´ an´ı datov´ y bod leˇz´ıc´ı relativnˇe daleko od regresn´ı pˇr´ımky vzhledem k ostatn´ım bod˚ um. Obrázek 8.2 ukazuje, ˇze v pˇr´ıkladu 8.3 nen´ı ˇzádn´ y odlehl´ y bod. Odlehlé pozorován´ı m˚ uˇze m´ıt v´ yznamn´ y vliv na regresn´ı anal´ yzu. Tud´ıˇz je d˚ uleˇzité identifikovat odlehlá pozorován´ı a odstranit je, pokud je to moˇzné (napˇr´ıklad, jsou-li to chyby mˇeˇren´ı nebo záznamu dat). Mus´ıme také dávat pozor na vlivná pozorov´ an´ı. V regresn´ı anal´ yze je vlivn´ e pozorov´ an´ı datov´ y bod, jehoˇz odstranˇen´ı zp˚ usob´ı, ˇze se regresn´ı rovnice (a pˇr´ımka) znaˇcnˇe zmˇen´ı. Datov´ y bod, kter´ y ve smˇeru osy x leˇz´ı daleko od ostatn´ıch datov´ ych bod˚ u je ˇcasto vlivné pozorován´ı, nebot’ táhne“ regresn´ı pˇr´ımku k sobˇe a ostatn´ı datové body nep˚ usob´ı proti nˇemu. ” Jako v pˇr´ıpadˇe odlehl´ ych pozorován´ı bychom se mˇeli pokusit zjistit d˚ uvod vlivn´ ych pozorován´ı. Jestliˇze zjist´ıme, ˇze vlivná pozorován´ı jsou v datovém souboru z d˚ uvodu mˇeˇr´ıc´ıch 125

K APITOLA 8


nebo záznamov´ ych chyb nebo z nˇejakého jiného d˚ uvodu, je zˇrejmé, ˇze nepatˇr´ı do datového souboru, pak je m˚ uˇzeme bez dalˇs´ıho odstranit. Avˇsak, nen´ı-li ˇza´dné zˇrejmé vysvˇetlen´ı pro vlivná pozorován´ı, pak rozhodnut´ı o tom, zda odstranit ˇci neodstranit toto pozorován´ı z datového souboru je obt´ıˇzné a vyˇzaduje vyjádˇren´ı pracovn´ıka, kter´ y datov´ y soubor poˇr´ıdil. Pro data v pˇr´ıkladu 8.3 ukazuje obr. 8.3(b), ˇze datov´ y bod (2, 169) je potenciáln´ı vlivné pozorován´ı, jelikoˇz hodnota x = 2 leˇz´ı daleko od hodnot veliˇciny x ostatn´ıch datov´ ych bod˚ u. Odstran´ıme-li tento bod z datového souboru a znovu urˇc´ıme regresn´ı rovnici, dostaneme yˆ = 160.33 − 14.24x. Z obr. 8.3(b) je vidˇet, ˇze tato rovnice se znaˇcnˇe liˇs´ı od regresn´ı rovnice yˆ = 195.47 − 20.26x, kterou jsme vypoˇc´ıtali z p˚ uvodn´ıch dat. Takˇze bod (2, 169) je skuteˇcnˇe vlivné pozorován´ı. Vlivné pozorován´ı (2, 169) nen´ı chyba záznamu, ale legitimn´ı datov´ y bod. Nicménˇe, m˚ uˇze ’ b´ yt vhodné bud tento bod odstranit a tud´ıˇz omezit anal´ yzu na auta stará 4 aˇz 7 let, nebo z´ıskat dodateˇcné u ´daje o autech star´ ych 2 nebo 3 roky tak, aby regresn´ı anal´ yza nebyla tak závislá na jednom datovém bodu. Odlehlé pozorován´ı m˚ uˇze nebo nemus´ı b´ yt vlivné pozorován´ı; a vlivné pozorován´ı m˚ uˇze nebo nemus´ı b´ yt odlehlé pozorován´ı. Mnoho statistick´ ych softwar˚ u identifikuje potencionáln´ı odlehlá i vlivná pozorován´ı. ˇ Obr´ azek 8.3 Extrapolace a vlivné pozorov´ an´ı v pˇr´ıkladu s auty Skoda Forman y oblast extrapolace

Cena (v 1000 Kˇc)

Cena (v 1000 Kˇc)

y 180 170 160 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10 0 -10 -20 -30

1

2

3

4

5

6


7

8

9

10

(a) extrapolace

11 x

180 170 160 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10

vlivné pozorov´ an´ı yˆ = 195.47 − 20.26x (vˇsechna data)

yˆ = 160.33 − 14.24x (bez vlivného pozorován´ı)

1

2

3

4

5

6


7

8

x

(b) vlivné pozorován´ı

Prediktor a vysvˇ etluj´ıc´ı veliˇ cina Uvaˇzujeme-li lineárn´ı rovnici y = b0 + b1 x, pak x je nezávislá veliˇcina a y je závislá veliˇcina. V regresn´ı anal´ yze se y naz´ yvá vysvˇ etlovan´ a veliˇ cina a x prediktor nebo vysvˇ etluj´ıc´ı veliˇ cina, nebot’ ji pouˇz´ıváme k predikován´ı nebo vysvˇetlován´ı veliˇciny y. V pˇr´ıkladu 8.3 je stáˇr´ı“ auta prediktor a cena“ je vysvˇetlovaná veliˇcina. ” ” Nˇ ekter´ au ´ skal´ı pˇ ri pouˇ zit´ı line´ arn´ı regrese Myˇslenka nalezen´ı regresn´ı pˇr´ımky je zaloˇzena na pˇredpokladu, ˇze datové body jsou málo rozpt´ ylené kolem pomyslné pˇr´ımky (jsou soustˇredˇeny kolem pomyslné pˇr´ımky). V nˇekter´ ych 126

8.3 KOEFICIENT DETERMINACE

pˇr´ıpadech mohou b´ yt datové body soustˇredˇeny kolem kˇrivky m´ısto pˇr´ımky. Bohuˇzel vzorce pro urˇcen´ı b0 a b1 budou dobˇre pracovat i pro takové datové soubory a tud´ıˇz m˚ uˇzeme proloˇzit takov´ ymi body nevhodnou pˇr´ımku. Z toho co bylo ˇreˇceno, m˚ uˇzeme vyslovit kriterium pro nalezen´ı regresn´ı pˇr´ımky. Kriterium pro urˇ cen´ı regresn´ı pˇ r´ımky Dˇr´ıve neˇz pˇristoup´ıte k urˇcen´ı regresn´ı pˇr´ımky pro mnoˇzinu dvojic dat, udˇelejte bodov´ y diagram. Pokud body nejsou soustˇredˇeny kolem pˇr´ımky, nepouˇz´ıvejte regresn´ı pˇr´ımku.

8.3

Koeficient determinace

Jedn´ım z u ´kol˚ u regresn´ı a korelaˇcn´ı anal´ yzy je posouzen´ı kvality regresn´ı rovnice a zjiˇstˇen´ı intenzity (s´ıly, tˇesnosti) závislosti. Posuzovan´ y vztah je t´ım silnˇejˇs´ı a regresn´ı rovnice t´ım lepˇs´ı, ˇc´ım v´ıce jsou napozorované hodnoty vysvˇetlované veliˇciny y soustˇredˇené kolem regresn´ı pˇr´ımky urˇcené z dat a naopak t´ım slabˇs´ı, ˇc´ım v´ıce jsou pozorované hodnoty vysvˇetlované veliˇciny y vzdáleny od hodnot yˆ vypoˇcten´ ych pomoc´ı regresn´ı rovnice. V pˇr´ıkladu 8.3 m˚ uˇzeme regresn´ı rovnici pouˇz´ıt k predikci ceny auta pˇri zvoleném stáˇr´ı auta. Na pˇr´ıklad m˚ uˇzeme predikovat, ˇze cena 4 roky starého auta bude zhruba yˆ = 195.47 − 20.26 · 4 = 114.43, neboli 114430 Kˇc. Jak hodnotná je taková predikce? Je regresn´ı rovnice uˇziteˇcná pro predikován´ı ceny, nebo m˚ uˇzeme predikovat cenu stejnˇe dobˇre bez ohledu na stáˇr´ı auta? Uvaˇzujme opˇet pˇr´ıklad 8.3. Jeden zp˚ usob, jak vyuˇz´ıt informaci obsaˇzenou v datovém souboru k predikci ceny auta, je ignorovat stáˇr´ı a jednoduˇse pouˇz´ıt pr˚ umˇernou cenu y¯ vˇsech 11 vybran´ ych aut. Jin´ ymi slovy pouˇz´ıt P11

y¯ =

i=1

yi

= 88.64 (88640 Kˇc) 11 jako predikovanou hodnotu pro cenu auta bez ohledu na stáˇr´ı. K tomu, abychom z´ıskali kvantitativn´ı m´ıru celkové chyby, které jsme se t´ım dopustili, vypoˇc´ıtáme celkov´ y souˇcet ˇctverc˚ u odchylek pozorovan´ ych hodnot y od pr˚ umˇerné hodnoty. Tento celkov´ y souˇcet ˇctverc˚ u chyb naz´ yváme celkov´ y souˇ cet ˇ ctverc˚ u Sy . V naˇsem pˇr´ıpadˇe je celkov´ y souˇcet ˇctverc˚ u chyb roven 9708.50, pr˚ umˇerná cena y¯ = 88.64 je pouˇzita jako predikovaná cena kaˇzdého z 11 vybran´ ych aut Sy =

11 X

(yi − y¯)2 = 9708.50.

i=1

Jestliˇze stáˇr´ı auta je uˇziteˇcné pro predikován´ı ceny auta, pak by mˇelo doj´ıt ke sn´ıˇzen´ı v celkovém souˇctu ˇctverc˚ u pˇri pouˇzit´ı regresn´ı rovnice yˆ = 195.47 − 20.26x m´ısto pr˚ umˇerné ceny k predikci ceny auta. Vypoˇc´ıtejme nyn´ı celkov´ y souˇcet ˇctverc˚ u chyb, kter´ ych se dopust´ıme, jestliˇze regresn´ı rovnici pouˇzijeme k predikci ceny kaˇzdého z 11 vybran´ ych aut. Tento souˇcet ˇctverc˚ u chyb se naz´ yvá rezidu´ aln´ı souˇ cet S(y−ˆy) . Pro auta v naˇsem pˇr´ıkladu dostaneme S(y−ˆy) =

11 X

(yi − yî )2 = 1423.50.

i=1

Tud´ıˇz pouˇzit´ım regresn´ı rovnice k predikci ceny auta m´ısto pr˚ umˇerné ceny y¯ jsme v´ yraznˇe sn´ıˇzili celkov´ y souˇcet ˇctverc˚ u chyb. Charakteristika vyjadˇruj´ıc´ı pomˇerné sn´ıˇzen´ı celkového 127

K APITOLA 8


souˇctu ˇctverc˚ u chyb se naz´ yvá koeficient determinace. Dostáváme r2 =

Sy − S(y−ˆy) S(y−ˆy) 1423.5 =1− =1− = 0.853. Sy Sy 9708.5

Pouˇzit´ım regresn´ı rovnice m´ısto pr˚ umˇerné ceny y¯ jsme tud´ıˇz dosáhli 85.3% sn´ıˇzen´ı celkového souˇctu ˇctverc˚ u chyb predikce cen vˇsech 11 vybran´ ych aut. To znamená, ˇze stáˇr´ı auta je uˇziteˇcná charakteristika pro stanoven´ı ceny ojetého auta. Pojmy definované v´ yˇse shrneme do definice 8.3. Definice 8.3

ˇ ˇ ˚ S OU CTY CTVERC U

Celkovy´ souˇcet cˇtvercu: ˚

Sy =

Rezidualn´ ´ ı souˇcet cˇtvercu: ˚ Koeficient determinace:

Pn

i=1 (yi

S(y−ˆy) =

− y¯)2

Pn

− yî )2

i=1 (yi

r2 = 1 − S(y−ˆy) /Sy

Koeficient determinace je popisná m´ıra uˇziteˇcnosti regresn´ı rovnice pro predikován´ı. Koeficient determinace udává pomˇerné sn´ıˇzen´ı celkového souˇctu ˇctverc˚ u chyb, kterého doc´ıl´ıme pouˇzit´ım regresn´ı rovnice pro predikci pozorovan´ ych hodnot veliˇciny y m´ısto pr˚ umˇeru y¯. Koeficient determinace m˚ uˇzeme také interpretovat jako ˇcást celkov´ ych zmˇen v pozorovan´ ych hodnotách veliˇciny y, které jsou vysvˇetleny regresn´ı pˇr´ımkou, tzv. vysvˇ etliteln´ e zmˇ eny. Definice 8.4

ˇ ˇ ˚ R EGRESN Í SOU CET CTVERC U P

Regresn´ı souˇ cet ˇ ctverc˚ u Syˆ je definován Syˆ = ni=1 (yî − y¯)2 a vyjadˇruje mnoˇzstv´ı zmˇen pozorované veliˇciny y, které je vysvˇetleno regres´ı. Regresn´ı identita ˇ Pro data t´ ykaj´ıc´ı se automobilu Skoda Forman máme Sy = 9708.5, Syˆ = 8285.0 a S(y−ˆy) = 1423.5. Protoˇze 9708.5 = 8285.0 + 1423.5, dostáváme Sy = Syˆ + S(y−ˆy) . Tato rovnice je vˇzdy splnˇena a naz´ yvá se regresn´ı identita. Tvrzen´ı 8.1

R EGRESN Í IDENTITA

Celkov´ y souˇcet ˇctverc˚ u Sy je roven souˇctu regresn´ıho souˇctu ˇctverc˚ u Syˆ a reziduáln´ımu souˇctu ˇctverc˚ u S(y−ˆy) ; to je Sy = Syˆ + S(y−ˆy) . Interpretace koeficientu determinace Koeficient determinace r2 je definován vztahem r2 = 1 −

S(y−ˆy) Sy

a je roven procentn´ımu sn´ıˇzen´ı celkového souˇctu ˇctverc˚ u v d˚ usledku pouˇzit´ı regresn´ı rovnice k predikci hodnoty y m´ısto v´ ybˇerového pr˚ umˇeru y¯. Koeficient determinace m˚ uˇze b´ yt také poˇc´ıtán podle vzorce r2 =

Syˆ . Sy

128

´ Í KORELACE 8.4 L INE ARN

Tud´ıˇz je také roven procentn´ımu sn´ıˇzen´ı celkové zmˇeny v pozorované veliˇcinˇe y, která je vysvˇetlena regres´ı. V kaˇzdém pˇr´ıpadˇe r2 leˇz´ı mezi 0 a 1 a je to popisná m´ıra vhodnosti pouˇzit´ı regresn´ı rovnice pro predikován´ı. Hodnoty r2 bl´ızké 0 naznaˇcuj´ı, ˇze regresn´ı rovnice nen´ı pˇr´ıliˇs uˇziteˇcná pro predikován´ı. Naproti tomu, hodnoty r2 bl´ızké 1 naznaˇcuj´ı, ˇze regresn´ı rovnice je velice uˇziteˇcná pro predikován´ı. D˚ uleˇ zit´ e ! Pˇri hodnocen´ı intenzity závislosti na základˇe koeficientu determinace r2 je tˇreba m´ıt na zˇreteli, ˇze jeho velikost je ovlivnˇena t´ım, zda se nám podaˇrilo naj´ıt vhodn´ y 2 typ regresn´ı funkce pro popis dané závislosti. To znamená, ˇze malá hodnota r nemus´ı jeˇstˇe znamenat n´ızk´ y stupeˇ n závislosti mezi promˇenn´ ymi, ale m˚ uˇze to signalizovat chybnou volbu regresn´ı funkce. Na závˇer tohoto odstavce jeˇstˇe uvedeme zjednoduˇsené vzorce pro tˇri definované souˇcty ˇctverc˚ u. Vzorec 8.2

Výpoˇcetn´ı vzorce pro souˇcty ˇctverc˚ u

Tˇri souˇcty ˇctverc˚ u Sy , Syˆ a S(y−ˆy) mohou b´ yt vypoˇc´ıtány uˇzit´ım následuj´ıc´ıch vzorc˚ u: Celkovy´ souˇcet cˇtvercu: ˚

Sy = Syy

Regresn´ı souˇcet cˇtvercu: ˚ Rezidualn´ ´ ı souˇcet cˇtvercu: ˚

2 Syˆ = Sxy /Sxx 2 S(y−ˆy) = Syy − Sxy /Sxx

Vzorce pro v´ ypoˇcet Syy , Sxy a Sxx jsou uvedeny v definici 8.2.

8.4

Line´ arn´ı korelace

ˇ Casto sl´ ycháváme v´ yroky t´ ykaj´ıc´ı se korelace nebo nedostatku korelace mezi dvˇema veliˇcinami: Existuje pozitivn´ı korelace mezi výdaji za reklamu a prodejem“ nebo IQ a spotˇreba alkoholu ” ” nejsou korelované“. R˚ uzné statistiky mohou b´ yt pouˇzity jako popisné m´ıry korelace mezi dvˇema veliˇcinami. Nejv´ıce se pouˇz´ıvá v´ ybˇ erov´ y line´ arn´ı korelaˇ cn´ı koeficient r, kter´ y je popisnou m´ırou s´ıly lineárn´ıho (pˇr´ımkového) vztahu mezi dvˇema veliˇcinami. Definice 8.5

´ EROV ˇ ´ LINE ARN ´ Í KORELA CN ˇ Í KOEFICIENT V YB Y

Vybˇ an vztahem ´ erovy´ linearn´ ´ ı korelaˇcn´ı koeficient r je definov´

r=

sxy , sx sy

kde sx a sy jsou v´ ybˇerové smˇerodatné odchylky veliˇcin x respektive y a sxy je v´ ybˇerová kovariance v´ ybˇeru n dvojic dat veliˇcin x a y Pn

sxy =

i=1 (xi

− x¯)(yi − y¯) . n−1

N´ıˇze je uveden vzorec pro v´ ypoˇcet v´ ybˇerového lineárn´ıho korelaˇcn´ıho koeficientu. 129

K APITOLA 8

Vzorec 8.3


Výbˇerový lineárn´ı korelaˇcn´ı koeficient r

Lineárn´ı korelaˇcn´ı koeficient r pro n dvojic dat m˚ uˇze b´ yt poˇc´ıtán podle následuj´ıc´ıho vzorce Sxy r=q . Sxx Syy Vzorce pro Sxx , Sxy a Syy jsou uvedeny v definici 8.2. V´ ybˇerov´ y lineárn´ı korelaˇcn´ı koeficient r leˇz´ı mezi −1 a 1. Hodnoty r bl´ızké −1 nebo 1 naznaˇcuj´ı silnou lineárn´ı závislost mezi veliˇcinami a to, ˇze veliˇcina x je dobr´ ym lineárn´ım prediktorem pro veliˇcinu y (tj. regresn´ı rovnice je velice vhodná pro predikován´ı). Na druhé stranˇe, hodnoty r bl´ızké nule naznaˇcuj´ı slabou lineárn´ı závislost mezi veliˇcinami a to, ˇze veliˇcina x je ˇspatn´ ym lineárn´ım prediktorem pro veliˇcinu y ( tj. regresn´ı rovnice nen´ı pˇr´ıliˇs vhodná pro predikován´ı) Kladné hodnoty r naznaˇcuj´ı, ˇze veliˇciny jsou kladnˇ e line´ arnˇ e korelovan´ e v tom smyslu, ˇze y má tendenci lineárnˇe klesat s klesaj´ıc´ım x. Záporné hodnoty r naznaˇcuj´ı, ˇze veliˇciny jsou z´ apornˇ e line´ arnˇ e korelovan´ e v tom smyslu, ˇze y má tendenci lineárnˇe klesat s rostouc´ım x. Znaménko r je shodné jako znaménko smˇernice regresn´ı pˇr´ımky. Pˇredcházej´ıc´ı diskusi m˚ uˇzeme shrnout do následuj´ıc´ıho závˇeru: • Jestliˇze v´ ybˇerov´ y lineárn´ı korelaˇcn´ı koeficient r má hodnotu bl´ızkou ±1, pak dvojice dat jsou soustˇredˇeny kolem regresn´ı pˇr´ımky. ybˇerov´ y lineárn´ı korelaˇcn´ı koeficient r má hodnotu dost odliˇsnou od ±1, pak • Jestliˇze v´ dvojice dat jsou znaˇcnˇe roztrouˇseny kolem regresn´ı pˇr´ımky. • Jestliˇze v´ ybˇerov´ y lineárn´ı korelaˇcn´ı koeficient r má hodnotu bl´ızkou 0, pak smˇernice regresn´ı pˇr´ımky má také hodnotu bl´ızkou nule, coˇz naznaˇcuje, ˇze pravdˇepodobnˇe nen´ı lineárn´ı vztah mezi veliˇcinami. Vztah mezi v´ ybˇ erov´ ym korelaˇ cn´ım koeficientem a koeficientem determinace V odstavci 8.3 byl diskutován koeficient determinace r2 jako popisná m´ıra uˇziteˇcnosti regresn´ı rovnice pro predikován´ı. Nyn´ı jsme zavedli v´ ybˇerov´ y korelaˇcn´ı koeficient r jako popisnou m´ıru s´ıly lineárn´ıho vztahu mezi dvˇema veliˇcinami. Oˇcekáváme, ˇze s´ıla lineárn´ı závislosti také naznaˇcuje pouˇzitelnost regresn´ı rovnice pro predikován´ı. Koeficient determinace je roven ˇctverci v´ ybˇerového korelaˇcn´ıho koeficientu. V´ ybˇerov´ y lineárn´ı korelaˇcn´ı koeficient r, kter´ y se vyuˇz´ıvá k popisu s´ıly line´ arn´ı závislosti mezi dvˇema veliˇcinami, by mˇel b´ yt pouˇzit pouze tehdy, kdyˇz bodov´ y diagram naznaˇcuje, ˇze data jsou soustˇredˇena kolem pˇr´ımky. Korelace nen´ı pˇ r´ıˇ cinnost Veliˇciny mohou b´ yt silnˇe korelované, to vˇsak neznamená, ˇze je mezi nimi vztah pˇr´ıˇcinn´ y. Napˇr´ıklad v tabulce 8.2 jsou uvedena data t´ ykaj´ıc´ı se poˇctu hodin, které kaˇzd´ y z osmi náhodnˇe vybran´ ych student˚ u (veliˇcina x) vˇenoval pˇr´ıpravˇe na test z matematiky, kter´ y se mˇel uskuteˇcnit za 14 dn´ı a poˇcet bod˚ u z´ıskan´ ych pˇri testu (veliˇcina y). 130

´ Í REGRESNÍ MODEL 8.5 L INE ARN

ˇ vˇenovaný studiu a bodové výsledky testu 8 vybraných student˚ Tabulka 8.2 Cas u x y

10 15 12 20 8 16 14 22 92 81 84 74 85 80 84 80

I kdyˇz jsou obˇe sledované veliˇciny silnˇe zápornˇe korelované (r = −0.779 ), neznamená to, ˇze vˇetˇs´ı poˇcet hodin vˇenovan´ y pˇr´ıpravˇe na test je pˇr´ıˇcinou horˇs´ıho v´ ysledku testu. Dvˇe veliˇciny mohou b´ yt silnˇe korelované z toho d˚ uvodu, ˇze obˇe jsou vázány s jin´ ymi veliˇcinami, naz´ yvan´ ymi skryt´ e veliˇ ciny, které jsou pˇr´ıˇcinou zmˇen veliˇcin, které zkoumáme. Napˇr´ıklad v´ yˇse plat˚ u uˇcitel˚ u a v´ yˇse v´ ydaj˚ u za alkohol mohou b´ yt kladnˇe lineárnˇe korelované. Moˇzné vysvˇetlen´ı této kuriozn´ı skuteˇcnosti m˚ uˇze b´ yt, ˇze obˇe veliˇciny, jak v´ yˇse uˇcitelsk´ ych plat˚ u tak prodej alkoholu jsou tˇesnˇe svázané s jin´ ymi veliˇcinami jako je stupeˇ n inflace, kter´ y ovlivˇ nuje obˇe veliˇciny.

8.5

Line´ arn´ı regresn´ı model

K tomu, abychom mohli dˇelat závˇery v regresi a korelaci, mus´ı veliˇciny, které uvaˇzujeme, splˇ novat urˇcité podm´ınky. Uvaˇzujme dvˇe veliˇciny X a Y . Pˇritom necht’ Y je náhodná veliˇcina, zat´ımco o X pˇredpokládáme, ˇze je nenáhodná. Uvaˇzujme opˇet pˇr´ıklad 8.3 o vztahu ceny a stáˇr´ı ojetého auta. Regresn´ı rovnici m˚ uˇzeme pouˇz´ıt k predikci ceny auta pro zvolené stáˇr´ı auta. Nem˚ uˇzeme vˇsak oˇcekávat, ˇze naˇse predikce budou pˇresné, jelikoˇz ceny auta se od sebe liˇs´ı dokonce pˇri stejném stáˇr´ı ojetého auta. ˇ Napˇr´ıklad v tabulce 8.1 jsou uvedeny celkem 4 r˚ uzné ceny pro 5 let staré auto Skoda Forman. Tuto variabilitu v cenˇe auta stejného stáˇr´ı bychom mˇeli oˇcekávat, nebot’ auta budou m´ıt najet´ y r˚ uzn´ y poˇcet kilometr˚ u, r˚ uznˇe udrˇzovan´ y interiér, r˚ uznou kvalitu laku a tak podobnˇe. Tud´ıˇz kaˇzdému stáˇr´ı auta (hodnotˇe veliˇciny X) odpov´ıdá cel´ y soubor cen (hodnot veliˇciny Y) a sice ceny vˇsech aut téhoˇz stáˇr´ı. Dva roky star´ ym aut˚ um pˇr´ısluˇs´ı urˇcité rozdˇelen´ı cen, jiné rozdˇelen´ı cen dostaneme pro auta stará tˇri roky, atd. Na základˇe této diskuse je moˇzné zformulovat podm´ınky nutné k tomu, abychom mohli aplikovat inferenˇcn´ı metody v regresn´ı anal´ yze. Pˇ redpoklady uvaˇ zovan´ e pˇ ri klasick´ e line´ arn´ı regresi 1. Teoretick´ a (skuteˇ cn´ a) regresn´ı pˇ r´ımka: Existuje pˇr´ımka y = β0 + β1 x taková, ˇze pro kaˇzdou hodnotu x veliˇciny X, stˇredn´ı hodnota veliˇciny Y leˇz´ı na pˇr´ımce y = β0 + β1 x. Tuto pˇr´ımku naz´ yváme teoretickou regresn´ı pˇr´ımkou a jej´ı rovnici teoretickou regresn´ı rovnic´ı. e smˇ erodatn´ e odchylky: Smˇerodatná odchylka rozdˇelen´ı veliˇciny Y odpov´ı2. Shodn´ daj´ıc´ı urˇcité hodnotˇe x veliˇciny X je stejná bez ohledu na hodnotu x. aln´ı rozdˇ elen´ı: Pro kaˇzdou hodnotu x, pˇr´ısluˇsné rozdˇelen´ı veliˇciny Y je normáln´ı. 3. Norm´ Aby pˇredpoklady 1. 2. a 3. byly splnˇeny, mus´ı existovat konstanty β0 , β1 a σ takové, ˇze pro kaˇzdou hodnotu x odpov´ıdaj´ıc´ı rozdˇelen´ı veliˇciny Y je normáln´ı se stˇredn´ı hodnotou β0 + β1 x a rozptylem σ 2 . Tyto pˇredpoklady jsou oznaˇcovány jako line´ arn´ı regresn´ı model. Z d˚ uvodu struˇcnosti budeme pouˇz´ıvat název regresn´ı model. 131

K APITOLA 8


Pozn´ amka: V literatuˇre se nˇekdy v´ yˇse uveden´ y model oznaˇcuje jako klasick´ y lineárn´ı regresn´ı model a jsou-li splnˇeny pˇredpoklady 1. a 2. pak mluv´ıme o lineárn´ım regresn´ım modelu. Symbolicky m˚ uˇzeme regresn´ı model vyjádˇrit následovnˇe: Y = β0 + β1 X + ²,

(8.2)

kde ² reprezentuje normálnˇe rozdˇelenou náhodnou veliˇcinu s nulovou stˇredn´ı hodnotou a smˇerodatnou odchylkou σ. Parametry β0 , β1 naz´ yváme parametry regrese nebo regresn´ı parametry. Pozorované hodnoty y1 , y2 , · · · , yn lze povaˇzovat za hodnoty nezávisl´ ych náhodn´ ych veliˇcin Y1 , Y2 , · · · , Yn , pˇriˇcemˇz kaˇzdé Yi má normáln´ı rozdˇelen´ı N (β0 + β1 xi , σ 2 ). Parametry β0 , β1 a konstanta σ jsou obecnˇe neznámé a proto mus´ı b´ yt odhadnuty z v´ ybˇerov´ ych dat, která jsou k dispozici. Bodov´ ym odhadem σ se budeme zab´ yvat v pˇr´ıˇst´ım odstavci. Bodové odhady b0 a b1 parametr˚ u β0 a β1 teoretické regresn´ı pˇr´ımky z´ıskáme metodou nejmenˇs´ıch ˇctverc˚ u ve tvaru uvedeném ve vzorci 8.1. Z tohoto hlediska jsou b0 a b1 statistiky. Pˇr´ımku yˆ = b0 + b1 x budeme naz´ yvat v´ ybˇ erovou (empirickou) regresn´ı pˇ r´ımkou. V´ ybˇerovou regresn´ı pˇr´ımku m˚ uˇzeme povaˇzovat za odhad teoretické regresn´ı pˇr´ımky z´ıskan´ y na základˇe v´ ybˇerov´ ych pozorován´ı. Rozd´ıly mezi pozorovanou hodnotou yi a predikovanou hodnotou yî veliˇciny Yi , tj. hodnoty ei = yi − yî pro i = 1, 2, · · · , n se naz´ yvaj´ı rezidua. Rezidua ei je moˇzné povaˇzovat za odhad náhodné veliˇciny ² v regresn´ım modelu (8.2). Na obrázku 8.4 je grafická reprezentace rezidu´ı pro jednu dvojici dat. Obr´ azek 8.4 Reziduum dvojice dat

pozorovan´ a hodnota y

(x, y) e = y − yˆ

predikovan´ a hodnota yˆ

v´ ybˇerová regresn´ı pˇr´ımka yˆ = b0 + b1 x x

P

Snadno lze dokázat, ˇze souˇcet rezidu´ı ni=1 ei = 0, tud´ıˇz e¯ = 0. Dále souˇcet î )2 je identick´ y s reziduáln´ım souˇctem ˇctverc˚ u v definici 8.3. i=1 (yi − y

Pn

Pn

2 i=1 ei

=

Pˇ r´ıklad 8.4 Line´ arn´ı regresn´ı model ˇ ˇ ´ r´ı a cena auta Skoda Uvaˇzujte opˇet pˇr´ıklad 8.3, staˇ Favorit (SF). a) Vysvˇetlete, co znamenaj´ı pˇredpoklady regresn´ıho modelu. ´ b) Znazornˇ ete pˇredpoklady graficky. ˇ sen´ı: Reˇ a) Aby pˇredpoklady regresn´ıho modelu byly splnˇeny, mus´ı existovat konstanty β0 , β1 a σ takové, ˇ tohoto staˇ ´ r´ı x ceny vˇsech aut SF ´ r´ı, jsou normalnˇ ´ e rozdˇelené se stˇredn´ı hodnotou zˇe pro kaˇzdé staˇ ˇ maj´ı ´ zˇe napˇr´ıklad ceny vˇsech dva roky stary´ ch aut SF β0 + β1 x a rozptylem σ 2 . To znamena, N (β0 + β1 · 2, σ 2 )-rozdˇelen´ı.

132

´ Í REGRESNÍ MODEL 8.5 L INE ARN ˇ tohoto staˇ ´ r´ı x, stˇredn´ı hodnota vˇsech aut SF ´ r´ı leˇzela b) Pˇredpoklad 1 poˇzaduje, aby pro kaˇzdé staˇ ´ na pˇr´ımce y = β0 + β1 x, jak ukazuje obrazek 8.5(a). ´ ´ erové regresn´ı Protoˇze regresn´ı pˇr´ımku obvykle nezname, mus´ıme ji odhadnout pomoc´ı vybˇ pˇr´ımky, ktera´ v tomto pˇr´ıpadˇe je yˆ = 195.47 − 20.26x a obvykle nebude shodna´ s teoretickou re´ gresn´ı pˇr´ımkou. Tato situace je znazornˇ ena na obr. 8.5(b). Tˇret´ı pˇredpoklad regresn´ıho modelu ˇ pro ruzn ˚ a´ staˇ ´ r´ı byla normaln´ ´ ı se stejnou smˇerodatnou odpoˇzaduje, aby rozdˇelen´ı ceny aut SF chylkou. Obr´ azek 8.5 Teoretick´ a a výbˇerov´ a regresn´ı pˇr´ımka y y = β0 + β1 · 3 stˇredn´ı hodnota ceny vˇsech 3 roky star´ ych aut Cena (v 1000 Kˇc)

Cena (v 1000 Kˇc)

y 180 170 160 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10

y = β0 + β1 · 6 stˇredn´ı hodnota ceny vˇsech 6 let star´ ych aut y = β0 + β1 x

1

2

3

4

5

6


7

8

180 170 160 150 140 130 120 110 100 90 80 70 60 50 40 30 20 10

x

9

(a)

8.5.1

yˆ = b0 + b1 x = 195.47 − 20.26x v´ ybˇerov´ a regresn´ı pˇr´ımka

y = β0 + β1 x teoretická regresn´ı pˇr´ımka

1

2

3

4

5

6


7

8

x

(b)

Bodov´ y odhad rozptylu σ 2

Pˇredpokládejme, ˇze veliˇciny X a Y splˇ nuj´ı pˇredpoklady 1, 2 a 3 klasického regresn´ıho modelu. Jak jsme se jiˇz zm´ınili, rozptyl obvykle neznáme a mus´ı b´ yt odhadnut z dat, která jsou k dispozici. Statistika, která se pouˇz´ıvá k sestrojen´ı bodového odhadu pro σ 2 , se naz´ yvá rezidu´ aln´ı rozptyl a je definována následovnˇe. Definice 8.6

´ Í ROZPTYL R EZIDU ALN

an vztahem Rezidualn´ ´ ı rozptyl Se2 je definov´ Se2 = kde S(y−ˆy) =

Pn

i=1 (yi

S(y−ˆy) , n−2

− yî )2 .

Pˇripomeˇ nme, ˇze S(y−ˆy) je reziduáln´ı souˇcet ˇctverc˚ u a reprezentuje celkovou kvadratickou chybu, které se dopust´ıme, jestliˇze v´ ybˇerovou regresn´ı rovnici pouˇzijeme k predikci pozorované hodnoty veliˇciny Y . Zhruba ˇreˇceno, reziduáln´ı rozptyl vyjadˇruje, jak moc se v pr˚ umˇeru predikovaná hodnota yˆ veliˇciny Y liˇs´ı od pozorované hodnoty y.

133

K APITOLA 8


Pˇ r´ıklad 8.5 Ilustrace definice 8.6 ´ ı rozptyl pro data z tabulky 8.1. Vypoˇctˇete rezidualn´ ˇ ´ ı rozptyl je Reˇsen´ı: V odstavci 8.3 na stranˇe 127 jsme zjistili, zˇe S(y−ˆy) = 1423.5. Tud´ızˇ rezidualn´ s2e =

1423.5 . = 158.17 11 − 2

´ ı smˇerodatna´ odchylka se = 12.58. Muˇ ˚ zeme rˇ´ıci, zˇe v prumˇ ˚ eru se predikovana´ cena aut a rezidualn´ ˇ predikovana´ na zakladˇ ´ ´ eru, liˇs´ı od zjiˇstˇené (pozorované) ceny o 12580 Kˇc. SF e vybˇ

8.5.2

Testy hypot´ ez a intervaly spolehlivosti pro parametr β1

V tomto odstavci se budeme se zab´ yvat nˇekter´ ymi inferenˇcn´ımi metodami pouˇz´ıvan´ ymi v regresn´ı anal´ yze. Tyto metody vyˇzaduj´ı, aby zkoumané veliˇciny splˇ novaly pˇredpoklady regresn´ıho modelu. V praxi tyto metody pracuj´ı dobˇre i pˇri mal´ ych odchylkách od tˇechto pˇredpoklad˚ u, tj. jsou robustn´ı v˚ uˇci mal´ ym odchylkám od pˇredpoklad˚ u. Prvn´ı inferenˇcn´ı metody, kter´ ymi se budeme zab´ yvat, jsou testy hypotéz o parametru β1 teoretické regresn´ı pˇr´ımky. Testy hypot´ ez o parametru β1 line´ arn´ıho regresn´ıho modelu Pˇredpokládejme, ˇze veliˇciny X a Y splˇ nuj´ı pˇredpoklady regresn´ıho modelu. Pak pro kaˇzdou hodnotu x veliˇciny X má veliˇcina Y normáln´ı rozdˇelen´ı se stˇredn´ı hodnotou β0 + β1 x a smˇerodatnou odchylku σ. Zaj´ımá nás hlavnˇe pˇr´ıpad, kdy β1 = 0, nebot’ potom stˇredn´ı ˇ adn´ hodnota veliˇciny Y je β0 a smˇerodatná odchylka σ. Z´ y z tˇechto parametr˚ u nezávis´ı na x. To ale znamená, ˇze kdyˇz β1 = 0, pak veliˇcina X neposkytuje ˇzádnou informaci o rozdˇelen´ı veliˇciny Y. Z toho vypl´ yvá, ˇze neexistuje lineárn´ı vztah mezi X a Y a tud´ıˇz veliˇcina X nem˚ uˇze b´ yt pouˇzita jako prediktor hodnoty y veliˇciny Y. O tom, zda je mezi veliˇcinami X a Y lineárn´ı vztah a následnˇe zda veliˇcina X je uˇziteˇcná jako prediktor hodnoty y veliˇciny Y , m˚ uˇzeme rozhodnout na základˇe testu hypotézy H0 : β1 = 0 HA : β1 6= 0

(X nen´ı vhodná pro predikci Y ) (X je vhodná pro predikci Y ).

K testu hypotézy o parametru β1 teoretické regresn´ı pˇr´ımky pouˇzijeme statistiku b1 v´ ybˇerové regresn´ı pˇr´ımky. Jsou-li splnˇeny pˇredpoklady regresn´ıho modelu, m˚ uˇzeme urˇcit v´ ybˇ erov´ e rozdˇ elen´ı smˇ ernice regresn´ı pˇ r´ımky β1 Náhodná veliˇcina b1 má normáln´ı rozdˇelen´ı se stˇredn´ı hodnotou µb1 = β1 a rozptylem 2 σb1 = σ 2 /Sxx , tud´ıˇz normovaná náhodná veliˇcina Z=

b1 − β1 √ σ/ Sxx

má normované normáln´ı rozdˇelen´ı. Vzhledem k tomu, ˇze rozptyl σ 2 je neznám´ y, nahrad´ıme σ 2 jeho odhadem s2e a dostaneme následuj´ıc´ı v´ ysledek. 134


Tvrzen´ı 8.2

t- ROZD Eˇ LEN Í PARAMETRU β1

´ Í HO REGRESN Í HO MODELU LINE ARN

Pˇredpokládejme, ˇze veliˇciny X a Y splˇ nuj´ı pˇredpoklady regresn´ıho modelu. Pak T =

b1 − β1 √ Se / Sxx

má t-rozdˇelen´ı s n − 2 stupni volnosti. Tvrzen´ı 8.2 umoˇzn ˇuje pouˇz´ıt pro test hypotézy H0 : β1 = 0 náhodnou veliˇcinu T =

b √1 Se / Sxx

jako testovou statistiku a naj´ıt kritické hodnoty v tabulce III. Proces testován´ı hypotézy o nulovosti koeficientu β1 regresn´ıho modelu lze provést podle obecného schématu na základˇe specifick´ ych u ´daj˚ u uveden´ ych n´ıˇze. Postup 8.1

Test nulovosti parametru β1

• Pˇredpoklady: 1 − 3 pro regresn´ı model b √1 • Testov´ a statistika: T = ∼ t(n − 2) Se / Sxx • Kritické hodnoty: ±tα/2 . Pouˇzijte tabulku III. Pˇ r´ıklad 8.6 Ilustrace postupu 8.1 ˇ ´ ´ r´ı a cenˇe 11 ojetych ´ ´ Udaje o staˇ aut Skoda Forman jsou uvedeny v tabulce 8.1. Na zakladˇ e ´ analýzy rezidu´ı lze usoudit, zˇe pˇredpoklady 1-3 regresn´ıho modelu jsou splnˇeny. Poskytuj´ı nam ´ ˚ pro to, abychom udˇelali na 5% hladinˇe vy´ znamnosti zavˇ ´ er, zˇe staˇ ´ r´ı udaje dostatek argumentu ˇ ´ prediktorem ceny auta znaˇcky Skoda auta je vhodnym Forman? ˇ sen´ı: Reˇ ´ r´ı auta nen´ı vhodné pro predikci ceny) 1. H0 : β1 = 0 (staˇ ´ r´ı auta je vhodné pro predikci ceny). HA : β1 6= 0 (staˇ 2. α = 0.05 3. Kritické hodnoty jsou ±t0.025 s ν = n − 2. Tedy n = 11, ν = 11 − 2 = 9. Z tabulky III. najdeme t0.025 = 2.262. P 2 P ´ ´ v pˇr´ıkladu 8.5 jsme urˇcili 4. Z pˇr´ıkladu 8.3 mame xi = 326, xi = 58 a b1 = −20.26. Dale se = 12.58. Jelikoˇz n = 11, je hodnota testové statistiky tc =

−20.26 p = −7.235 . 12.58/ 326 − (58)2 /11

5. Protoˇze hodnota tc je menˇs´ı neˇz −t0.025 = −2.262, padne do kritického oboru hypotézy H0 a tud´ızˇ ´ H0 zam´ıtame. ´ ´ zˇe na 5% hladinˇe 6. Výsledky testu jsou statisticky vyznamn´ e na 5% hladinˇe. To znamena, ´ ´ ´ ˚ proto, abychom udˇelali zavˇ ´ er, zˇ e parametr vyznamnosti nam data davaj´ ı dostatek argumentu ˇ ´ ´ r´ı auta vhodné jako prediktor ceny auta Skoda regrese β1 nen´ı roven nule a nasledkem toho je staˇ Forman.

135

K APITOLA 8


Pomoc´ı pˇr´ıstupu k testován´ı hypotéz zaloˇzeném na P -hodnotˇe bychom také z´ıskali argumenty pro zam´ıtnut´ı nulové hypotézy. Jelikoˇz tc = −7.235 a ν = 9, najdeme v tabulce III., ˇze P -hodnota je menˇs´ı neˇz 0.01. Protoˇze je menˇs´ı neˇz poˇzadovaná hladina v´ yznamnosti 0.05, m˚ uˇzeme zam´ıtnout H0 . V odstavci 8.3 jsme zavedli koeficient determinace r2 jako m´ıru vhodnosti pouˇzit´ı regresn´ı rovnice pro predikován´ı. Statistiku r2 m˚ uˇzeme také pouˇz´ıt jako základ pro test hypotézy, zda regresn´ı pˇr´ımka je vhodná pro predikce. Test zaloˇzen´ y na r2 je ekvivalentn´ı s testem zaloˇzen´ ym na b1 . Intervaly spolehlivosti pro regresn´ı parametr β1 Pˇripomeˇ nme, ˇze smˇernice β1 teoretické regresn´ı pˇr´ımky reprezentuje zmˇenu veliˇciny Y v d˚ usledku zvˇetˇsen´ı x o jednotku. Dále pˇripomeˇ nme, ˇze teoretická regresn´ı pˇr´ımka se smˇernic´ı β1 je stˇredn´ı hodnotou rozdˇelen´ı veliˇciny Y odpov´ıdaj´ıc´ı r˚ uzn´ ym hodnotám x. Tud´ıˇz β1 reprezentuje zmˇenu stˇredn´ı hodnoty rozdˇelen´ı veliˇciny Y , kdyˇz se hodnota veliˇciny x zvˇetˇs´ı ˇ o jednotku. Uvaˇzujeme-li napˇr´ıklad stáˇr´ı (X) a cenu (Y ) auta znaˇcky Skoda Forman, β1 je ˇ stˇredn´ı hodnota roˇcn´ıho poklesu ceny auta Skoda Forman. Tud´ıˇz je vidˇet, ˇze má smysl odhadnout smˇernici β1 teoretické regresn´ı pˇr´ımky. Jiˇz v´ıme, ˇze bodov´ ym odhadem smˇernice β1 je smˇernice b1 v´ ybˇerové regresn´ı pˇr´ımky. Intervalov´ y odhad parametru β1 dostaneme aplikac´ı tvrzen´ı 8.2. Postup 8.2

Interval spolehlivosti pro parametr β1 regresn´ıho modelu

Pˇredpoklady: 1 − 3 pro regresn´ı model 1. Pro koeficient spolehlivosti 1 − α, najdˇete v tabulce III. tα/2 s ν = n − 2. 2. Krajn´ı body intervalu spolehlivosti pro β1 jsou se b1 ± tα/2 · √ . Sxx

Pˇ r´ıklad 8.7 Ilustrace postupu 8.2 ´ Pouˇzijte udaje z tabulky 8.1 a sestrojte 95% interval spolehlivosti pro β1 teoretické regresn´ı ˇ ´ r´ım auta Skoda pˇr´ımky, ktera´ vyjadˇruje vztah mezi cenou a staˇ Favorit. ˇ Reˇsen´ı: 1. Pro 95% interval spolehlivosti je α = 0.05. Jelikoˇz n = 11, ν = 11 − 2 = 9. V tabulce III. najdeme t0.05/2 = t0.025 = 2.262. P 2 P ´ ´ z pˇr´ıkladu 8.5 mame ´ 2. Z pˇr´ıkladu 8.3 mame b1 = −20.26, xi = 326, xi = 58. Dale se = 12.58. Z toho urˇc´ıme krajn´ı body intervalu spolehlivosti pro β1 −20.26 ± 2.262 · p

12.58 326 − (58)2 /11

= −20.26 ± 6.33,

˚ zeme by´ t jisti, zˇe neboli 95% interval spolehlivosti je (−26.59, −13.93). S 95% spolehlivost´ı si muˇ ´ parametr β1 teoretické regresn´ı pˇr´ımky leˇz´ı mezi −26.59 a −13.93. Jinymi slovy, s 95% spolehlivost´ı ˇ ˚ zeme byt ´ jisti, zˇe roˇcn´ı sn´ızˇen´ı stˇredn´ı hodnoty ceny auta Skoda si muˇ Forman je mezi 13930 Kˇc a 26590 Kˇc.

136


8.5.3

Odhad a predikce

V této ˇca´sti si ukáˇzeme, jak v´ ybˇerová regresn´ı pˇr´ımka m˚ uˇze b´ yt pouˇzita jednak pro odhad stˇredn´ı hodnoty rozdˇelen´ı náhodné veliˇciny Y pˇri urˇcité hodnotˇe x nezávislé veliˇciny a jednak pro predikci hodnoty veliˇciny Y pro urˇcitou hodnotu x nezávislé veliˇciny. Pouˇzijeme pˇr´ıklad 8.3 k ilustraci základn´ı myˇslenky. Abychom to mohli udˇelat, pˇredpoˇ kládejme, ˇze veliˇciny stáˇr´ı a cena auta Skoda Forman splˇ nuj´ı pˇredpoklady 1 − 3 pro regresi. Pˇ r´ıklad 8.8 Odhad stˇredn´ı hodnoty v regresi ˇ Pouˇzijte data z pˇr´ıkladu 8.3 pro odhad stˇredn´ı hodnoty ceny vˇsech 3 roky stary´ ch aut Skoda Forman. ˇ sen´ı: Vzhledem k pˇredpokladu 1 pro regresn´ı model, teoreticka´ regresn´ı rovnice urˇcuje stˇredn´ı Reˇ ˇ ˚ a´ staˇ ´ r´ı aut Skoda hodnotu cen pro ruzn Forman. Tud´ızˇ stˇredn´ı hodnota ceny vˇsech 3 roky stary´ ch ˇ ´ aut Skoda Forman je pˇresnˇe rovna β0 + β1 · 3. Protoˇze β0 a β1 nezname, odhadneme stˇredn´ı ˇ ´ hodnotu ceny vˇsech 3 roky starych aut Skoda Forman β0 + β1 · 3 pomoc´ı pˇr´ısluˇsné hodnoty b0 + b1 · 3 na výbˇerové regresn´ı pˇr´ımce. Protoˇze výbˇerova´ regresn´ı rovnice pro uvaˇzovana´ data je yˆ = −195.47 − 20.26x, je odhad stˇredn´ı ceny pro vˇsechna 3 roky stara´ auta yˆ = −195.47 − 20.26 · 3 = 134.69, nebo 134690 Kˇc.

ˇ Pozn´ amka: Odhad stˇredn´ı hodnoty ceny vˇsech 3 roky star´ ych aut Skoda Forman je rovna ˇ predikované cenˇe 3 roky starého auta Skoda Forman. Obˇe hodnoty z´ıskáme dosazen´ım x = 3 do v´ ybˇerové regresn´ı rovnice. Odhad stˇredn´ı hodnoty vˇsech 3 roky star´ ych aut je bodov´ y odhad. Jak v´ıme, mohl by poskytnout v´ıce informac´ı, pokud bychom mˇeli nˇejakou pˇredstavu, jak pˇresn´ y je tento bodov´ y odhad. Jin´ ymi slovy, bylo by vhodné stanovit interval spolehlivosti ˇ pro odhad stˇredn´ı hodnoty vˇsech 3 roky star´ ych aut Skoda Forman. Intervaly spolehlivosti pro stˇ redn´ı hodnoty v regresi Sestrojen´ı intervalu spolehlivosti pro stˇredn´ı hodnotu rozdˇelen´ı veliˇciny Y odpov´ıdaj´ıc´ı urˇcité hodnotˇe xp veliˇciny Y se op´ırá o následuj´ıc´ı poznatek. Tvrzen´ı 8.3

t- ROZD Eˇ LEN Í PRO INTERVALY SPOLEHLIVOSTI V REGRESI

Necht’ veliˇciny X a Y splˇ nuj´ı pˇredpoklady 1−3 pro regresn´ı model. Dále necht’ xp oznaˇcuje urˇcitou hodnotu prediktoru X a yˆp = b0 + b1 xp . Pak má náhodná veliˇcina T =

Yˆp − (β0 + β1 xp ) q

Se

1 n

+

(xp −¯ x)2 Sxx

t-rozdˇelen´ı s n − 2 stupni volnosti. Vzhledem k tomu, ˇze β0 + β1 xp je stˇredn´ı hodnota rozdˇelen´ı veliˇciny Yp odpov´ıdaj´ıc´ı zadané hodnotˇe xp , m˚ uˇzeme aplikac´ı tvrzen´ı 8.3 odvodit následuj´ıc´ı postup pro interval spolehlivosti pro stˇredn´ı hodnotu v regresi.

137

K APITOLA 8

Postup 8.3


Interval spolehlivosti pro stˇredn´ı hodnotu Y odpov´ıdaj´ıc´ı hodnotˇe xp

Pˇredpoklady: 1 − 3 pro regresn´ı model 1. Pro koeficient spolehlivosti 1 − α, pouˇzijte tabulku III.k stanoven´ı t α2 s ν = n − 2. 2. Urˇcete bodov´ y odhad yˆp = b0 + b1 xp , pro stˇredn´ı hodnotu rozdˇelen´ı hodnot veliˇciny Y odpov´ıdaj´ıc´ıch hodnotˇe xp . 3. Krajn´ı body intervalu spolehlivosti pro stˇredn´ı hodnotu jsou s

yˆp ± t α2 · se

1 (xp − x¯)2 . + n Sxx

Pˇ r´ıklad 8.9 Ilustrace postupu 8.3 ˇ ´ Sestrojte 95% interval spolehlivosti pro stˇredn´ı hodnotu ceny vˇsech 3 roky starych aut Skoda ´ Forman na zakladˇ e dat z pˇr´ıkladu 8.3. ˇ sen´ı: Reˇ 1. Pro koeficient spolehlivosti 0.95 je α = 0.05. Protoˇze n = 11 je ν = 9. V tabulce III. nalezneme, zˇe t0.025 = 2.262. ´ erova´ regresn´ı 2. Nyn´ı potˇrebujeme spoˇc´ıtat hodnotu yˆp pro xp = 3. Z pˇr´ıkladu 8.3 v´ıme, zˇe vybˇ rovnice je yˆ = 195.47 − 20.26x, takˇze yˆp = 195.47 − 20.26 · 3 = 134.69. Pn Pn 3. V pˇr´ıkladu 8.3 jsme vypoˇc´ıtali i=1 xi = 58 a i=1 x2i = 326; v pˇr´ıkladu 8.5 jsme urˇcili se = 12.58. ´ Z 1. kroku mame t0.025 = 2.262a z 2. kroku yˆp = 134.69. Z toho dostaneme, zˇe krajn´ı body intervalu spolehlivosti pro stˇredn´ı hodnotu jsou s 134.69 ± 2.262 · 12.58

(3 − 58/11)2 1 + = 134.69 ± 16.76 11 326 − (58)2 /11

˚ zeme se na 95% spolehnout, zˇe stˇredn´ı hodnota neboli interval spolehlivosti je (117.93, 151.45). Muˇ ˇ ceny vˇsech 3 roky starých aut Skoda Forman bude mezi 117930 Kˇc a 151450 Kˇc.

Intervaly predikce V´ ybˇerová regresn´ı rovnice se pˇredevˇs´ım pouˇz´ıvá pro predikci. Regresn´ı rovnice pro data stáˇr´ı ˇ a cena auta Skoda Forman je yˆ = 195.47 − 20.26x. Tud´ıˇz napˇr´ıklad predikovaná cena pro 3 roky staré auto uvaˇzované znaˇcky je 134690 Kˇc. Vzhledem k tomu, ˇze se ceny takov´ ych aut ˇ mˇen´ı, má vˇetˇs´ı v´ yznam urˇcit interval predikce pro cenu 3 roky star´ ych aut Skoda Forman neˇz stanovit pouze jednu predikovanou hodnotu. Název interval spolehlivosti je obvykle vyhrazen pro intervalov´ y odhad parametr˚ u, takoˇ v´ ych jako napˇr´ıklad stˇredn´ı hodnota ceny vˇsech 3 roky star´ ych aut znaˇcky Skoda Forman. Název interval predikce je pouˇzit pro intervalov´ y odhad náhodné veliˇciny, takové jako je ˇ napˇr´ıklad cena náhodnˇe vybraného 3 roky starého auta Skoda Forman. Postup pro sestrojen´ı intervalu predikce je podobn´ y jako postup sestrojne´ı intervalu spolehlivosti. Interval predikce je zaloˇzen na následuj´ıc´ı skuteˇcnosti. 138


Tvrzen´ı 8.4

t- ROZD Eˇ LEN Í PRO INTERVALY PREDIKCE V REGRESI

Pˇredpokládejme, ˇze veliˇciny X a Y splˇ nuj´ı pˇredpoklady 1 − 3 pro regresn´ı model. Necht’ xp oznaˇcuje urˇcitou hodnotu prediktoru X, a necht’ yˆp = b0 + b1 xp . Pak náhodná veliˇcina T =

yˆp − (β0 + β1 xp ) q

Se 1 +

1 n

+

(xp −¯ x)2 Sxx

má t-rozdˇelen´ı s n − 2 stupni volnosti. Pomoc´ı tvrzen´ı 8.4 m˚ uˇzeme odvodit následuj´ıc´ı postup sestrojen´ı intervalu predikce pro veliˇcinu Y odpov´ıdaj´ıc´ı urˇcité hodnotˇe veliˇciny X. Postup 8.4

Interval predikce pro hodnotu veliˇciny Y odpov´ıdaj´ıc´ı urˇcite´ hodnotˇe xp

Pˇredpoklady: 1 − 3 pro regresn´ı model 1. Pro koeficient spolehlivosti 1 − α pouˇzijte tabulku III.k urˇcen´ı tα/2 s ν = n − 2. 2. Vypoˇc´ıtejte predikovanou hodnotu yˆp = b0 + b1 xp náhodné veliˇciny Y . 3. Krajn´ı body intervalu predikce pro hodnotu y veliˇciny Y jsou s

yˆp ± t α2 .se 1 +

1 (xp − x¯)2 + . n Sxx

Pˇ r´ıklad 8.10 Ilustrace postupu 8.4 ˇ ´ Sestrojte 95% interval predikce ceny nahodnˇ e vybraného 3 roky starého auta Skoda Forman na ´ zakladˇ e dat z pˇr´ıkladu 8.3. ˇ sen´ı: Reˇ 1. Koeficient spolehlivosti je 0.95, tud´ızˇ α = 0.05. Protoˇze n = 11 je ν = 9. V tabulce III. nalezneme, zˇe t0.025 = 2.262. ´ 2. Hodnotu yˆp pro xp = 3 jsme vypoˇc´ıtali v pˇredchaxej´ ıc´ım pˇr´ıkladu yp = 134.69. Z pˇr´ıkladu 8.3 v´ıme, zˇe výbˇerova´ regresn´ı rovnice je yˆ = 195.47 − 20.26x, takˇze yˆp = 195.47 − 20.26 · 3 = 134.69. Pn Pn 3. V pˇr´ıkladu 8.3 jsme vypoˇc´ıtali i=1 xi = 58 a i=1 x2i = 326; v pˇr´ıkladu 8.5 jsme urˇcili se = ´ 12.58.Z 1. kroku mame t0.025 = 2.262 a z 2. kroku yˆp = 134.69. Z toho dostaneme, zˇe krajn´ı body intervalu predikce jsou s 1 (3 − 58/11)2 134.69 ± 2.262 · 12.58 1 + + = 134.69 ± 33.02, 11 326 − (58)2 /11 ˚ zeme se na 95% spolehnout, zˇe cena nahodnˇ ´ neboli interval predikce je (101.67, 167.71). Muˇ e vyˇ braného 3 roky starého auta Skoda Forman bude mezi 101670 Kˇc a 167710 Kˇc.

Interval predikce je ˇsirˇs´ı neˇz interval spolehlivosti. To je pochopitelné z následuj´ıc´ıho ˇ d˚ uvodu: Chyba v odhadu stˇredn´ı hodnoty ceny vˇsech 3 roky star´ ych aut Skoda Forman 139

K APITOLA 8


je zp˚ usobena t´ım, ˇze teoretická regresn´ı pˇr´ımka je odhadnuta pomoc´ı v´ ybˇerové regresn´ı pˇr´ımky. Na druhé stranˇe, chyba v predikci ceny náhodnˇe vybraného 3 roky starého auta ˇ Skoda Forman je zp˚ usobena v´ yˇse zm´ınˇenou chybou v odhadu stˇredn´ı hodnoty ceny plus ˇ variabilita v cenách vˇsech 3 roky star´ ych aut Skoda Forman.

8.6

Testy hypot´ ez o korelaˇ cn´ım koeficientu

ˇ Casto potˇrebujeme rozhodnout, zda dvˇe veliˇciny jsou lineárnˇe korelované, tj. zda existuje lineárn´ı vztah mezi dvˇema veliˇcinami. V odstavci 8.5.2 jsme ukázali, ˇze toto rozhodnut´ı m˚ uˇzeme udˇelat na základˇe testu hypotézy o smˇernici β1 teoretické regresn´ı pˇr´ımky. Stejnˇe tak m˚ uˇzeme testovat hypotézu o korelaˇcn´ım koeficientu ρ. Korelaˇcn´ı koeficient jsme definovali v kapitole 4, def. 4.8 jako m´ıru lineárn´ı korelace mezi náhodn´ ymi veliˇcinami a v odstavci 8.4, jsme zavedli v´ ybˇerov´ y lineárn´ı korelaˇcn´ı koeficient r (viz. def. 8.5), kter´ y lze spoˇc´ıtat na základˇe dvojic pozorovan´ ych hodnot veliˇcin X a Y jako m´ıru lineárn´ı korelace mezi vybran´ ymi dvojicemi dat. Zat´ımco ρ popisuje s´ılu lineárn´ıho vztahu mezi dvˇema veliˇcinami; r je pouze odhad ρ. Pˇripomeˇ nme, ˇze lineárn´ı korelaˇcn´ı koeficient ρ leˇz´ı mezi −1 a 1. Hodnoty ρ bl´ızké −1 nebo 1 naznaˇcuj´ı siln´ y lineárn´ı vztah mezi veliˇcinami, zat´ımco hodnoty ρ bl´ızké nule naznaˇcuj´ı slab´ y lineárn´ı vztah mezi veliˇcinami. Jestliˇze ρ > 0 veliˇciny jsou kladnˇ e (pozitivnˇ e) line´ arnˇ e korelovan´ e ve smyslu, ˇze y má tendenci lineárnˇe r˚ ust s r˚ ustem x a to t´ım v´ıce, ˇc´ım je ρ bl´ıˇze k 1. Je-li ρ < 0, veliˇciny jsou z´ apornˇ e (negativnˇ e) line´ arnˇ e korelovan´ e v tom smyslu, ˇze y má tendenci lineárnˇe klesat s r˚ ustem x a to t´ım v´ıce, ˇc´ım je ρ bl´ıˇze k −1. Je-li ρ = 0, pak veliˇciny jsou line´ arnˇ e nekorelovan´ e v tom smyslu, ˇze mezi nimi nen´ı ˇza´dn´ y lineárn´ı vztah. Protoˇze v´ ybˇerov´ y korelaˇcn´ı koeficient r je odhadem korelaˇcn´ıho koeficientu ρ, m˚ uˇze b´ yt vyuˇzit jako základ pro test hypotézy o ρ. Pro test s nulovou hypotézou H0 : ρ = 0 (to je dvˇe veliˇciny jsou lineárnˇe nekorelované), pouˇzijeme následuj´ıc´ı poznatek. Tvrzen´ı 8.5

t- ROZD Eˇ LEN Í PRO TEST

´ HYPOT EZY O KOEFICIENTU KORELACE

Pˇredpokládejme, ˇze veliˇciny X a Y splˇ nuj´ı pˇredpoklady 1 − 3 pro regresn´ı model. Jestliˇze ρ = 0, pak má náhodná veliˇcina r T =q 2 1−r n−2

t-rozdˇelen´ı s n − 2 stupni volnosti. S ohledem na tvrzen´ı 8.5 lze test hypotézy s nulovou hypotézou H0 : ρ = 0 pouˇz´ıt q pro 1−r2 náhodnou veliˇcinu T = r/ n−2 jako testovou statistiku a urˇcit kritické hodnoty z tabulky III. pro linearn´ Postup 8.5 Test hypotezy ´ ´ ı korelaˇcn´ı koeficient s H0 : ρ = 0 • Pˇredpoklady: 1 − 3 pro regresn´ı model • Testov´ a statistika: T = q r 2 ∼ t(n − 2) 1−r n−2

• Kritické hodnoty H0 : pro oboustrann´ y test: ±tα/2 pro levostrann´ y test: −tα pro pravostrann´ y test: tα 140

8.7 O BECN Y´ REGRESNÍ MODEL

Pˇ r´ıklad 8.11 Ilustrace postupu 8.5 ˇ ´ ´ r´ı a cenˇe 11 ojety´ ch aut Skoda ´ Uvaˇzujme opˇet udaje o staˇ Forman z tabulky 8.1. Poskytuj´ı nam ´ ˚ pro to, abychom udˇelali na 5% hladinˇe vy´ znamnosti zavˇ ´ er, zˇe staˇ ´ r´ı udaje dostatek argumentu ˇ ´ ´ e korelované, jestliˇze vybˇ ´ erovy´ korelaˇcn´ı a cena auta znaˇcky Skoda Forman jsou zapornˇ e linearnˇ koeficient je roven −0.924? ˇ sen´ı: Reˇ ˇ ´ ı korelaˇcn´ı koeficient pro veliˇciny staˇ ´ r´ı a cena auta Skoda 1. Necht’ ρ je linearn´ Forman. Pak nulova´ a alternativn´ı hypotézy jsou ´ r´ı a cena auta jsou linearnˇ ´ e nekorelované) H0 : ρ = 0 (staˇ ´ r´ı a cena auta jsou zapornˇ ´ ´ e korelované). Test je levostranný. HA : ρ < 0 (staˇ e linearnˇ 2. α = 0.05 . 3. Kriticka´ hodnota pro levostranný test je −t0.05 s ν = 11 − 2 = 9. Z tabulky III. najdeme −t0.05 = −1.833. ´ erovy´ korelaˇcn´ı koeficient r = −0.924. Tud´ızˇ hodnota vybˇ ´ erové statistiky je 4. Vybˇ tc = q

−0.924 1−(−0.924)2 11−2

= −7.249 .

5. Protoˇze hodnota tc je menˇs´ı neˇz −t0.05 = −1.833, padne do kritického oboru hypotézy H0 a tud´ızˇ ´ H0 zam´ıtame. ´ ´ zˇe na 5% hladinˇe 6. Výsledky testu jsou statisticky vyznamn´ e na 5% hladinˇe. To znamena, ´ ´ ´ ˚ k tomu, abychom udˇelali zavˇ ´ er, zˇe staˇ ´ r´ı a vyznamnosti nam data davaj´ ı dostatek argumentu ˇ ´ ´ e korelované. cena auta Skoda Forman jsou zapornˇ e linearnˇ

8.7

Obecn´ y regresn´ı model

Doposud jsme se zab´ yvali metodami, jak popisovat a dˇelat závˇery o pr˚ ubˇehu a tˇesnosti závislosti v pˇr´ıpadˇe, ˇze zkoumáme lineárn´ı vztah dvou kvantitavn´ıch statistick´ ych znak˚ u. Zkoumali jsme lineárn´ı závislost závislé, vysvˇetlované veliˇciny Y na jediné nezávislé, vysvˇetluj´ıc´ı veliˇcinˇe X. V ˇradˇe pˇr´ıpad˚ u se nám nepodaˇr´ı vysvˇetlit zmˇeny vysvˇetlované veliˇciny pouze jedinou vysvˇetluj´ıc´ı veliˇcinou. Pak mus´ıme rozˇs´ıˇrit poˇcet vysvˇetluj´ıc´ıch veliˇcin, jimiˇz je moˇzné vysvˇetlit chován´ı závislé veliˇciny. V tomto pˇr´ıpadˇe tedy zkoumáme, jak závis´ı veliˇcina Y na vysvˇetluj´ıc´ıch veliˇcinách X1 , X2 , · · · , Xr . Metody zkoumán´ı závislost´ı tohoto typu se naz´ yvaj´ı v´ıcen´ asobnou (velmi ˇcasto pouˇz´ıváme term´ın mnohon´ asobnou) regres´ı a korelac´ı. Pˇredpokládejme, ˇze zkoumaná náhodná veliˇcina Y závis´ı na veliˇcinách X1 , X2 , · · · , Xr tak, ˇze jej´ı stˇredn´ı hodnota E(Y ) je funkc´ı tˇechto veliˇcin a neznám´ ych parametr˚ u θ1 , θ2 , · · · , θs E(Y ) = f (x1 , x2 , · · · , xr ; θ1 , θ2 , · · · , θs ),

(8.3)

kde x1 , x2 , · · · , xr jsou namˇeˇrené hodnoty veliˇcin X1 , X2 , · · · , Xr a θ1 , θ2 , · · · , θs jsou parametry. Funkce f se naz´ yvá regresn´ı funkce a θ1 , θ2 , · · · , θs se naz´ yvaj´ı parametry regrese nebo regresn´ı parametry. Uveden´ y model (8.3) m˚ uˇzeme také vyjádˇrit ve tvaru Y = f (x1 , x2 , · · · , xr ; θ1 , θ2 , · · · , θs ) + ²,

141

(8.4)

K APITOLA 8


kde ² je náhodná veliˇcina, (tzv. ruˇsivá sloˇzka) se stˇredn´ı hodnotou E(²) = 0. Pˇri vyˇsetˇrován´ı regresn´ı závislosti je regresn´ı funkce zpravidla známá (z teoretick´ ych u ´vah) nebo se jej´ı tvar pˇredpokládá. Potom se m˚ uˇzeme omezit na odhad regresn´ıch parametr˚ u. K tomu nejˇcastˇeji pouˇz´ıváme metodu nejmenˇ s´ıch ˇ ctverc˚ u. Metoda nejmenˇ s´ıch ˇ ctverc˚ u pro obecn´ y regresn´ı model Necht’ y1 , y2 , · · · , yn je n nezávisl´ ych pozorován´ı náhodné veliˇciny Y a x1j , x2j , · · · xnj jsou dané hodnoty veliˇciny Xj , j = 1, 2, · · · , r. Parametry θ1 , θ2 , · · · , θs regresn´ıho modelu (8.3) odhadneme metodou nejmenˇs´ıch ˇctverc˚ u, tj. urˇc´ıme parametry θˆ1 , θˆ2 , · · · , θˆs pˇri nichˇz funkce S(θ1 , θ2 , · · · , θs ) =

n X

[yi − f (x1 , x2 , · · · , xr ; θ1 , θ2 , · · · , θs )]2

(8.5)

i=1

nab´ yvá svého minima. Podle tvaru regresn´ı funkce mluv´ıme o line´ arn´ı, exponenci´ aln´ı, kvadratické, polynomické a jin´ ych regres´ıch. Uvedeme ty, které maj´ı nejˇcastˇejˇs´ı praktické pouˇzit´ı [7]. Jednoduch´ a regrese V pˇr´ıpadˇe, ˇze uvaˇzujeme jednu nezávislou veliˇcinu, mluv´ıme o jednoduché regresi a tento typ m˚ uˇzeme zapsat ve tvaru E(Y ) = f (x, β0 , β1 , · · · , βk )

(8.6)

Nejˇcastˇejˇs´ı pouˇz´ıvané jsou ty jednoduché regresn´ı funkce, které jsou lineárn´ı z hlediska parametr˚ u. Naz´ yvaj´ı se line´ arn´ı regresn´ı funkce a maj´ı tvar E(Y ) = β0 + β1 f1 (x) + · · · + βk fk (x),

(8.7)

kde β0 , β1 , · · · , βk jsou neznámé parametry a f1 , f2 , · · · , fk jsou známé funkce nezávislé veliˇciny X. Dále uvedeme nˇekolik pˇr´ıpad˚ u lineárn´ı regresn´ı funkce: a) Dosad´ıme-li do (8.7) k = 1 a f1 (x) = x, dostaneme pˇ r´ımkovou regresi, kterou jsme se podrobnˇe zab´ yvali v odstavci 8.1 E(Y ) = β0 + β1 x.

(8.8)

b) Dosad´ıme-li do (8.7) f1 (x) = x a f2 (x) = x2 , dostaneme parabolickou regresi E(Y ) = β0 + β1 x + β2 x2 .

(8.9)

c) Obecnˇe, dosad´ıme-li do (8.7) fi (x) = xi , pro kaˇzdé i = 1, 2, · · · , k, dostaneme polynomickou regresi k-t´ eho stupnˇ e E(Y ) = β0 + β1 x + β2 x2 + · · · + βk xk .

(8.10)

d) V pˇr´ıpadˇe, ˇze dosad´ıme do (8.7) f1 (x) = x−1 dostaneme hyperbolickou regresi prvn´ıho stupnˇe β1 (8.11) E(Y ) = β0 + . x 142


e) Obecnˇe, dosad´ıme-li do (8.7) fi (x) = x−i , pro kaˇzdé i = 1, 2, · · · , k, dostaneme hyperbolickou regresi k-t´ eho stupnˇ e E(Y ) = β0 +

β1 β2 βk + 2 + ··· + k. x x x

(8.12)

f ) Dosazen´ım k = 1 a f1 (x) = log x do (8.7), dostaneme logaritmickou regresi E(Y ) = β0 + β1 log x.

(8.13)

Vedle jednoduch´ ych regresn´ıch funkc´ı typu (8.7), které jsou lineárn´ımi funkcemi parametr˚ u, se setkáváme s jednoduch´ ymi regresn´ımi funkcemi, které nejsou lineárn´ı z hlediska parametr˚ u. Mezi nejˇcastˇeji pouˇz´ıvané funkce tohoto typu patˇr´ı exponenci´ aln´ı regresn´ı funkce f (x) f2 (x) β2

E(Y ) = β0 β1 1

f (x)

· · · βkk

.

(8.14)

Pro k = 1 a f1 (x) = x dostaneme exponenci´ aln´ı regresi prvn´ıho stupnˇe E(Y ) = β0 β1x .

(8.15)

Parametry funkce (8.14) a jin´ ych funkc´ı, které nejsou lineárn´ımi funkcemi parametr˚ u, nelze odhadovat pˇr´ımo metodou nejmenˇs´ıch ˇctverc˚ u, nebot’ jej´ı pouˇzit´ı vede k soustavˇe nelineárn´ıch rovnic, z nichˇz zpravidla nedokáˇzeme odhadnout pˇr´ımo parametry ve formˇe vhodn´ ych v´ ypoˇcetn´ıch vzorc˚ u. V pˇr´ıpadˇe nˇekter´ ych regresn´ıch funkc´ı m˚ uˇzeme pouˇz´ıt vhodnou transformaci a pˇrevést je do tvaru (8.7). Podrobnˇeji o regresn´ı a korelaˇcn´ı anal´ yze z hlediska praktického pouˇzit´ı pojednává publikace [7]. Line´ arn´ı regresn´ı model denn´ı automobilov´ e dopravy Praktické vyuˇzit´ı jednoduchého lineárn´ıho modelu si ukáˇzeme na statistickém pˇr´ıstupu k modelován´ı denn´ı automobilové dopravy, jak´ y byl pouˇzit v roce 1991 v Oslo. C´ılem bylo odhadnout u ´ˇcinnost zaveden´ı poplatk˚ u na vybran´ ych frekventovan´ ych silnic´ıch v Oslo [1]. Poplatky za uˇz´ıván´ı nˇekter´ ych silnic byly v Oslo zavedeny od 1.2.1990. Jeden rok pˇred zaveden´ım poplatk˚ u byly instalovány mˇeˇr´ıc´ı stanice na 16 m´ıstech, kde mˇely b´ yt poplatky vyb´ırány. Necel´ y rok po zaveden´ı poplatk˚ u bylo v Oslo rozm´ıstˇeno 50 mˇeˇr´ıc´ıch stanic na 30 siln´ıc´ıch a zjiˇst’ován poˇcet proj´ıˇzdˇej´ıc´ıch automobil˚ u v obdob´ı od 1.1.1991 do 31.1.1992, celkovˇe 762 dn´ı. Na nejd˚ uleˇzitˇejˇs´ıch silnic´ıch byl poˇcet proj´ıˇzdˇej´ıc´ıch automobil˚ u sledován nepˇretrˇzitˇe aˇz na krátká obdob´ı, kdy selhalo automatické zaˇr´ızen´ı. Na nˇekter´ ych silnic´ıch se provádˇela mˇeˇren´ı pouze po nˇekolik t´ ydn˚ u v kaˇzdém roce. Kaˇzdá mˇeˇr´ıc´ı stanice zaznamenávala poˇcet aut proj´ıˇzdˇej´ıc´ıch v jednom smˇeru. Protoˇze vˇetˇsina silnic byla dvousmˇernn´ ych, byly stanice ˇcasto instalovány na stejn´ ych m´ıstech v obou smˇerech, ale byly povaˇzovány za dvˇe r˚ uzné stanice. Poˇcet mˇeˇren´ı v kaˇzdé stanici se pohyboval od 15 do 640. Zvolen´ y matematick´ y model popisuje denn´ı dopravu pomoc´ı ˇsesti komponent: – Obecná u ´roveˇ n – Trend, dlouhodobˇe tato sloˇzka vykazuje pokles nebo r˚ ust – Sezonn´ı efekt (variabilita opakuj´ıc´ı se kaˇzd´ y rok) – Vliv zp˚ usoben´ y dnem v t´ ydnu 143

K APITOLA 8


– Zvláˇstn´ı dny (velikonoce, vánoce a ostatn´ı volné dny) – Chyba mˇeˇren´ı Tyto komponenty charakterizuj´ı denn´ı dopravu prostˇrednictv´ım následuj´ıc´ıho multiplikativn´ıho modelu: Denn´ı doprava = u ´roveˇ n · trend · sezóna · den v t´ ydnu · zvláˇstn´ı dny · chyba. Model pro (pˇrirozen´ y) logaritmus denn´ı dopravy je pak aditivn´ı a je to model typu vyjádˇren´ y vztahem (8.7) . Pro kaˇzdou mˇeˇr´ıc´ı stanici je model denn´ı dopravy formulován jako lineárn´ı regresn´ı model log(denn´ı doprava v den t) = yt = β0 +

46 X

βi Xit + ²t ,

i=1

kde yt je logaritmus denn´ı dopravy v den t, Xit , (i = 1, 2, · · · , 46) je vysvˇetluj´ıc´ı veliˇcina v den t reprezentuj´ıc´ı systematické zmˇeny (trend, sezonn´ı vlivy, vliv dne v t´ ydnu a speciáln´ı dny), a ² je chyba v den t. Parametr β0 je konstantn´ı ˇclen reprezentuj´ıc´ı u ´roveˇ n, zat´ımco βi (i = 1, 2, · · · , 46) urˇcuj´ı vliv vysvˇetluj´ıc´ıch veliˇcin. Mˇeˇren´ı byla provádˇena prostˇrednictv´ım 50 mˇeˇr´ıc´ıch stanic se 47 neznám´ ymi regresn´ımi parametry pro kaˇzdou stanici. Tud´ıˇz bylo celkem 2 350 parametr˚ u, které bylo tˇreba odhadnout na základˇe namˇeˇren´ ych u ´daj˚ u. To samozˇrejmˇe nebylo jednoduché, protoˇze na nˇekter´ ych stanic´ıch bylo k dispozici jen 15 mˇeˇren´ı. Byla pouˇzita metoda odhadu neznám´ ych parametr˚ u, která simultánnˇe odhaduje parametry pro vˇsechny mˇeˇr´ıc´ı stanice. Na základˇe u ´daj˚ u o denn´ı dopravˇe bylo zjiˇstˇeno, ˇze se provoz sn´ıˇzil na vˇsech silnic´ıch, kde se zaˇcali vyb´ırat poplatky (aˇz na jednu, která byla po zaveden´ı poplatk˚ u uzavˇrena).

8.7.1

Maticov´ e vyj´ adˇ ren´ı modelu line´ arn´ı regrese

Maticov´ y zp˚ usob zápisu regresn´ıho modelu je vhodné pouˇz´ıvat v pˇr´ıpadˇe velkého poˇctu pozorován´ı a pˇri vˇetˇs´ım poˇctu nezávisl´ ych veliˇcin. Uvaˇzujme regresn´ı model lineárn´ı v parametrech i v nezávisle promˇenn´ ych. Mˇejme náhodné veliˇciny Y1 , Y2 , · · · , Yn a matici dan´ ych ˇc´ısel X typu (n × (k + 1)), k + 1 < n tvaru 



1 x11 . . . x1k  . .. . . . . X= . ..  .  ..  1 xn1 . . . xnk Pˇredpokládejme, ˇze pro náhodn´ y vektor Y = (Y1 , Y2 , · · · , Yn )T plat´ı Y = Xβ + ²,

(8.16)

kde β = (β0 , β2 , · · · , βk )T je vektor neznám´ ych parametr˚ u a ² = (²1 , ²2 , · · · , ²n )T je vektor náhodn´ ych veliˇcin splˇ nuj´ıc´ı podm´ınky E(²) = 0,

Σ² = σ 2 I.

(8.17)

Pˇredpokládejme, ˇze hodnost matice X je rovna k + 1, z toho pak vypl´ yvá, ˇze matice X je regulárn´ı. Vektor Xβ nen´ı náhodn´ y vektor. Z (8.16) a (8.17) plyne E(Y) = Xβ, 144

ΣY = σ 2 I.

(8.18)


Parametry β0 , β2 , · · · , βk se odhaduj´ı na základˇe pozorován´ı y = (y1 , y2 , · · · , yn )T metodou nejmenˇs´ıch ˇctverc˚ u tj. z podm´ınky, ˇze v´ yraz S(β) = (y − Xβ)T (y − Xβ) má b´ yt minimáln´ı. Oznaˇcme tyto odhady b = (b0 , b1 , · · · , bk )T . Plat´ı, ˇze odhady b = (b0 , b1 , · · · , bk )T parametr˚ u β = (β0 , β2 , · · · , βk )T metodou nejmenˇs´ıch ˇctverc˚ u jsou dány vzorcem b = (XT X)−1 XT y. (8.19) Odhad b je nestrann´ y a má kovarianˇcn´ı matici Σb = σ 2 (XT X)−1 .

145

Tabulka I: Distribuˇcn´ı funkce normovaného normáln´ıho rozdˇelen´ı N (0, 1)

z

0

Pro z < 0.0 poul’ijte vztah Φ(z) = 1 − Φ(−z). z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9

0.000 0.500 0.540 0.579 0.618 0.655 0.691 0.726 0.758 0.788 0.816 0.841 0.864 0.885 0.903 0.919 0.933 0.945 0.955 0.964 0.971 0.977 0.982 0.986 0.989 0.992 0.994 0.995 0.997 0.997 0.998

0.010 0.504 0.544 0.583 0.622 0.659 0.695 0.729 0.761 0.791 0.819 0.844 0.867 0.887 0.905 0.921 0.934 0.946 0.956 0.965 0.972 0.978 0.983 0.986 0.990 0.992 0.994 0.995 0.997 0.998 0.998

0.020 0.508 0.548 0.587 0.626 0.663 0.698 0.732 0.764 0.794 0.821 0.846 0.869 0.889 0.907 0.922 0.936 0.947 0.957 0.966 0.973 0.978 0.983 0.987 0.990 0.992 0.994 0.996 0.997 0.998 0.998

0.030 0.512 0.552 0.591 0.629 0.666 0.702 0.736 0.767 0.797 0.824 0.848 0.871 0.891 0.908 0.924 0.937 0.948 0.958 0.966 0.973 0.979 0.983 0.987 0.990 0.992 0.994 0.996 0.997 0.998 0.998

0.040 0.516 0.556 0.595 0.633 0.670 0.705 0.739 0.770 0.800 0.826 0.851 0.873 0.893 0.910 0.925 0.938 0.949 0.959 0.967 0.974 0.979 0.984 0.987 0.990 0.993 0.994 0.996 0.997 0.998 0.998

0.050 0.520 0.560 0.599 0.637 0.674 0.709 0.742 0.773 0.802 0.829 0.853 0.875 0.894 0.911 0.926 0.939 0.951 0.960 0.968 0.974 0.980 0.984 0.988 0.991 0.993 0.995 0.996 0.997 0.998 0.998

0.060 0.524 0.564 0.603 0.641 0.677 0.712 0.745 0.776 0.805 0.831 0.855 0.877 0.896 0.913 0.928 0.941 0.952 0.961 0.969 0.975 0.980 0.985 0.988 0.991 0.993 0.995 0.996 0.997 0.998 0.998

0.070 0.528 0.567 0.606 0.644 0.681 0.716 0.749 0.779 0.808 0.834 0.858 0.879 0.898 0.915 0.929 0.942 0.953 0.962 0.969 0.976 0.981 0.985 0.988 0.991 0.993 0.995 0.996 0.997 0.998 0.999

0.080 0.532 0.571 0.610 0.648 0.684 0.719 0.752 0.782 0.811 0.836 0.860 0.881 0.900 0.916 0.931 0.943 0.954 0.962 0.970 0.976 0.981 0.985 0.989 0.991 0.993 0.995 0.996 0.997 0.998 0.999

Tabulka II: Kritické hodnoty normovaného normáln´ıho rozdˇelen´ı N (0, 1) α zα

0.2 0.1 0.842 1.282

0.05 1.645

0.025 1.960

0.01 0.005 2.326 2.576

146

0.0025 2.807

0.001 3.090

0.090 0.536 0.575 0.614 0.652 0.688 0.722 0.755 0.785 0.813 0.839 0.862 0.883 0.901 0.918 0.932 0.944 0.954 0.963 0.971 0.977 0.982 0.986 0.989 0.992 0.994 0.995 0.996 0.997 0.998 0.999

z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9

Tabulka III: Kritické hodnoty t-rozdˇelen´ı α

0

ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100

t0.2 1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 0.851 0.849 0.848 0.847 0.846 0.846 0.845

t0.1 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.299 1.296 1.294 1.292 1.291 1.290

tα

t0.05 t0.025 t0.01 t0.005 t0.0025 6.314 12.706 31.821 63.656 127.321 2.920 4.303 6.965 9.925 14.089 2.353 3.182 4.541 5.841 7.453 2.132 2.776 3.747 4.604 5.598 2.015 2.571 3.365 4.032 4.773 1.943 2.447 3.143 3.707 4.317 1.895 2.365 2.998 3.499 4.029 1.860 2.306 2.896 3.355 3.833 1.833 2.262 2.821 3.250 3.690 1.812 2.228 2.764 3.169 3.581 1.796 2.201 2.718 3.106 3.497 1.782 2.179 2.681 3.055 3.428 1.771 2.160 2.650 3.012 3.372 1.761 2.145 2.624 2.977 3.326 1.753 2.131 2.602 2.947 3.286 1.746 2.120 2.583 2.921 3.252 1.740 2.110 2.567 2.898 3.222 1.734 2.101 2.552 2.878 3.197 1.729 2.093 2.539 2.861 3.174 1.725 2.086 2.528 2.845 3.153 1.721 2.080 2.518 2.831 3.135 1.717 2.074 2.508 2.819 3.119 1.714 2.069 2.500 2.807 3.104 1.711 2.064 2.492 2.797 3.091 1.708 2.060 2.485 2.787 3.078 1.706 2.056 2.479 2.779 3.067 1.703 2.052 2.473 2.771 3.057 1.701 2.048 2.467 2.763 3.047 1.699 2.045 2.462 2.756 3.038 1.697 2.042 2.457 2.750 3.030 1.684 2.021 2.423 2.704 2.971 1.676 2.009 2.403 2.678 2.937 1.671 2.000 2.390 2.660 2.915 1.667 1.994 2.381 2.648 2.899 1.664 1.990 2.374 2.639 2.887 1.662 1.987 2.368 2.632 2.878 1.660 1.984 2.364 2.626 2.871

147

t0.001 318.289 22.328 10.214 7.173 5.894 5.208 4.785 4.501 4.297 4.144 4.025 3.930 3.852 3.787 3.733 3.686 3.646 3.610 3.579 3.552 3.527 3.505 3.485 3.467 3.450 3.435 3.421 3.408 3.396 3.385 3.307 3.261 3.232 3.211 3.195 3.183 3.174

ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100

Tabulka IV: Kritické hodnoty χ2 -rozdˇelen´ı

α 0

ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100

χ20.995 0.000 0.010 0.072 0.207 0.412 0.676 0.989 1.344 1.735 2.156 2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434 8.034 8.643 9.260 9.886 10.520 11.160 11.808 12.461 13.121 13.787 20.707 27.991 35.534 43.275 51.172 59.196 67.328

χ2α

χ20.99 0.000 0.020 0.115 0.297 0.554 0.872 1.239 1.647 2.088 2.558 3.053 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260 8.897 9.542 10.196 10.856 11.524 12.198 12.878 13.565 14.256 14.953 22.164 29.707 37.485 45.442 53.540 61.754 70.065

χ20.975 0.001 0.051 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791 24.433 32.357 40.482 48.758 57.153 65.647 74.222

148

χ20.95 0.004 0.103 0.352 0.711 1.145 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493 26.509 34.764 43.188 51.739 60.391 69.126 77.929

χ20.9 0.016 0.211 0.584 1.064 1.610 2.204 2.833 3.490 4.168 4.865 5.578 6.304 7.041 7.790 8.547 9.312 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599 29.051 37.689 46.459 55.329 64.278 73.291 82.358

ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100

Tabulka IV: Kritické hodnoty χ2 -rozdˇelen´ı (pokraˇcov´ an´ı)

χ20.01 χ20.025 χ20.05 ν χ20.1 1 2.706 3.841 5.024 6.635 2 4.605 5.991 7.378 9.210 3 6.251 7.815 9.348 11.345 4 7.779 9.488 11.143 13.277 5 9.236 11.070 12.832 15.086 6 10.645 12.592 14.449 16.812 7 12.017 14.067 16.013 18.475 8 13.362 15.507 17.535 20.090 9 14.684 16.919 19.023 21.666 10 15.987 18.307 20.483 23.209 11 17.275 19.675 21.920 24.725 12 18.549 21.026 23.337 26.217 13 19.812 22.362 24.736 27.688 14 21.064 23.685 26.119 29.141 15 22.307 24.996 27.488 30.578 16 23.542 26.296 28.845 32.000 17 24.769 27.587 30.191 33.409 18 25.989 28.869 31.526 34.805 19 27.204 30.144 32.852 36.191 20 28.412 31.410 34.170 37.566 21 29.615 32.671 35.479 38.932 22 30.813 33.924 36.781 40.289 23 32.007 35.172 38.076 41.638 24 33.196 36.415 39.364 42.980 25 34.382 37.652 40.646 44.314 26 35.563 38.885 41.923 45.642 27 36.741 40.113 43.195 46.963 28 37.916 41.337 44.461 48.278 29 39.087 42.557 45.722 49.588 30 40.256 43.773 46.979 50.892 40 51.805 55.758 59.342 63.691 60 74.397 79.082 83.298 88.379 50 63.167 67.505 71.420 76.154 70 85.527 90.531 95.023 100.425 80 96.578 101.879 106.629 112.329 90 107.565 113.145 118.136 124.116 100 118.498 124.342 129.561 135.807 149

χ20.005 7.879 10.597 12.838 14.860 16.750 18.548 20.278 21.955 23.589 25.188 26.757 28.300 29.819 31.319 32.801 34.267 35.718 37.156 38.582 39.997 41.401 42.796 44.181 45.558 46.928 48.290 49.645 50.994 52.335 53.672 66.766 91.952 79.490 104.215 116.321 128.299 140.170

ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 50 70 80 90 100

Literatura [1] M. Aldrin (1995). A statistical approach to the modelling of daily car traffic. Traffic Engineering and Control, Vol. 36, Nb. 3, pp. 489–493. [2] J.Andˇel (1985). Matematická statistika. SNTL, Alfa. [3] V. Beneˇs, G. Dohnal (1993). Pravdˇepodobnost a matematická statistika. Vydavatelstv´ı ˇ CVUT. [4] P. Brémaud (1994). An Introduction to Probabilistic Modeling. Springer Verlag, New York. [5] J.Hátle, J. Likeˇs (1972). Základy poˇctu pravdˇepodobnosti a matematické statistiky. SNTL/Alfa, Praha [6] A.Rényi (1972). Teorie pravdˇepodobnosti. Academia, Praha. [7] J. Seger, R. Hindls (1995). Statistické metody v trˇzn´ım hospodáˇrstv´ı. Victoria Publishing, Praha. ˇ epán (1987). Teorie pravdˇepodobnosti. Matematické základy. Akademia, Praha. [8] J.Stˇ [9] N.A. Weiss (1996). Elementary Statistics, Addison-Wesley Publishing Company. [10] T.H. Wonnacott, R.J. Wonnacott (1995). Statistika pro obchod a hospodáˇrstv´ı. (pˇreklad z amerického originálu Introductory Statistics for Business and Economics), J. Wiley & Sons, New York.

150

Rejstˇ r´ık P -hodnota, 101

kritická, 97 stˇredn´ı, 51 hustota, 48 margináln´ı, 50 sdruˇzená, 50 hypotéza, 95 alternativn´ı, 95 jednoduchá, 96 nulová, 95

chyba I. druhu, 98 II. druhu, 98 stˇredn´ı kvadratická, 80 v´ ybˇerová, 80 ch´ı-kvadrát test dobré shody, 115 nezávislosti, 118

inferenˇcn´ı statistika, 10 interval predikce, 138 interval spolehlivosti, 85 χ2 -interval pro rozptyl, 91 t-interval pro sˇredn´ı hodnotu, 89 z-interval pro pod´ıl, 92 z-interval pro stˇredn´ı hodnotu, 87 dvoustrann´ y, 85 levostrann´ y, 85 pravostrann´ y, 85

decil, 23 diagram kruhov´ y, 20 Stem-and-Leaf, 20 extrapolace, 125 funkce distribuˇcn´ı, 45 diskrétn´ı, 46 margináln´ı, 50 sdruˇzená (simultánn´ı), 49 spojitá, 48 gama, 54 logaritmické vˇerohodnostn´ı, 83 pravdˇepodobnostn´ı, 46 regresn´ı, 141 lineárn´ı, 142 vˇerohodnostn´ı, 83

jednotka statistická, 9 jevy elementárn´ı, 33 jevové pole, 33 nezávislé, 40 náhodné, 31 vzájemnˇe nesluˇcitelné, 35 u ´pln´ y systém, 42 koeficient determinace, 128 korelaˇcn´ı, 55 v´ ybˇerov´ y, 129 spolehlivosti, 85 variaˇcn´ı, 29 konvergence podle pravdˇepodobnosti, 65 kovariance, 54 kritérium nejmenˇs´ıch ˇctverc˚ u, 122

graf bodov´ y, 19 krabicov´ y, 30 sloupkov´ y, 20 histogram ˇcetnost´ı, 18 hladina v´ yznamnosti, 98 pozorovaná, 102 hodnota 151

ˇ ÍK REJST R

kvantil, 23, 53 kvartil doln´ı, 23 horn´ı, 23 prostˇredn´ı, 23

v´ ybˇerov´ y, 72 sdruˇzen´ y, 114 základn´ıho souboru, 72 pokus náhodn´ y, 31 polygon ˇcetnost´ı, 19 popisná statistika, 9 pozorován´ı odlehlé, 26, 125 vlivné, 125 pravdˇepodobnost aposteriorn´ı, 43 apriorn´ı, 42 axiomatická definice, 36 klasická, 32 margináln´ı, 50 podm´ınˇená, 38 sdruˇzená, 49 subjektivn´ı, 43 pravidlo o podm´ınˇené pravdˇepodobnosti, 38 o sˇc´ıtán´ı pravdˇepodobnost´ı, 37 pro násoben´ı pravdˇepodobnost´ı, 39 pro pravdˇepodobnost opaˇcného jevu, 37 prediktor, 126 prostor elementárn´ıch jev˚ u, 33 parametrick´ y, 77 pravdˇepodobnostn´ı, 36 pr˚ umˇer, 24 useknut´ y, 26 v´ ybˇerov´ y, 70 pˇeti–ˇc´ıselná charakteristika, 29 pˇr´ıpustná chyba odhadu pod´ılu, 93 stˇredn´ı hodnoty, 88

matice kovarianˇcn´ı, 56 medián, 54 v´ ybˇerov´ y, 23, 25 metoda maximáln´ı vˇerohodnosti, 82 moment˚ u, 82 nejmenˇs´ıch ˇctverc˚ u, 142 model regresn´ı lineárn´ı, 131 modus, 25 moment centráln´ı, 53 v´ ybˇerov´ y, 71 obecn´ y, 52 sm´ıˇsen´ y, 54 v´ ybˇerov´ y, 70 m´ıra popisná, 22 polohy, 24 rezistentn´ı, 26 rozpt´ ylenosti absolutn´ı, 27 relativn´ı, 29 ˇsikmosti, 30 ˇspiˇcatosti, 30 ˇ nerovnost Cebyˇ sevova, 64 obor kritick´ y (zam´ıtnut´ı), 97 pˇrijet´ı, 97 odchylka smˇerodatná, 53 v´ ybˇerová, 29 odhad bodov´ y, 77 asymptoticky nestrann´ y, 79 konzistentn´ı, 79 nestrann´ y, 78 vydatn´ y (nejlepˇs´ı nestrann´ y), 80 intervalov´ y, 77

regrese jednoduchá, 142 lineárn´ı, 126 regresn´ı pˇr´ımka, 122 teoretická, 131 v´ ybˇerová, 132 reziduum, 132 robustnost, 87 rovnice normáln´ı, 123 regresn´ı, 121, 123

parametr regrese, 132, 141 percentil, 23 pod´ıl 152

ˇ ÍK REJST R

vˇerohodnostn´ı, 83 rozdˇelen´ı diskrétn´ı, 56 alternativn´ı, 56 binomické, 56 geometrické, 57 hypergeometrické, 57 Poissonovo, 58 rovnomˇerné diskrétn´ı, 58 spojité, 59 χ2 , 63 exponenciáln´ı, 62 normáln´ı (Gaussovo), 61 normáln´ı dvourozmˇerné, 64 normáln´ı normované, 59 rovnomˇerné, 59 Studentovo, 63 rozptyl, 53 reziduáln´ı, 133 v´ ybˇerov´ y, 28, 71 sdruˇzen´ y, 74 rozpˇet´ı mezikvartilové, 29 variaˇcn´ı, 27 rozsah v´ ybˇerového souboru, 10 základn´ıho souboru, 10

jednov´ ybˇerov´ y, 105 nesdruˇzen´ y, 111 párov´ y, 112 sdruˇzen´ y, 109 z-test dvouv´ ybˇerov´ y, 114 jednov´ ybˇerov´ y, 104, 108 dvoustrann´ y, 96 jednostrann´ y, 96 levostrann´ y, 96 o korelaˇcn´ım koeficientu, 140 pravostrann´ y, 96 tˇr´ıda doln´ı hranice, 16 horn´ı hranice, 16 stˇred, 16 ˇs´ıˇrka, 16 tˇr´ıdˇen´ı intervalové, 15 jednoduché, 17 jednostupˇ nové, 14 v´ıcestupˇ nové, 14 vektor náhodn´ y, 49 stˇredn´ıch hodnot, 56 veliˇcina, 13 kvalitativn´ı, 13 kvantitativn´ı, 13 diskrétn´ı, 13 spojitá, 13 vysvˇetlovaná, 126 vysvˇetluj´ıc´ı, 126 veliˇcina náhodná diskrétn´ı, 44 spojitá, 44 veliˇciny nekorelované, 55 nezávislé, 50 vych´ ylen´ı (zkreslen´ı) odhadu, 78 vydatnost odhadu, 80 vzorec Bayes˚ uv, 42 u ´plné pravdˇepodobnosti, 42 vˇeta Bernoulliho, 65 centráln´ı limitn´ı, 66

soubor statistick´ y, 10 základn´ı, 10 souˇcet ˇctverc˚ u celkov´ y, 127 regresn´ı, 129 reziduáln´ı, 127 statistika, 69 t-statistika, 71 nesdruˇzená, 74 sdruˇzená, 74 odhadová, 77 testová, 97 symetrie, 21 s´ıla testu, 98 tabulka kombinaˇcn´ı, 50 test hypotézy, 95 χ2 -test, 106 t-test 153

ˇ ÍK REJST R

Chinˇcinova, 65 Linderbergova-Lévyho, 67 Moivreova-Laplaceova, 66 v´ ybˇer náhodn´ y prost´ y, 11 stratifikovan´ y, 12 systematick´ y, 12 v´ıcestupˇ nov´ y, 12 v´ ybˇery náhodné nezávislé, 73 párové, 75 znak statistick´ y, 13 zákon rozdˇelen´ı, 45 velk´ ych ˇc´ısel, 64 ˇcetnost absolutn´ı, 16 kumulativn´ı, 16 oˇcekávaná (teoretická), 115 pozorovaná (empirická), 115 relativn´ı, 16 kumulativn´ı, 16

154

Pˇ r´ıloha 1) Inference pro stˇ redn´ı hodnotu µ

• Sdruˇzená t-testová statistika pro hypotézu H0 : µ1 = µ2 (nezávislé v´ ybˇery, normáln´ı rozdˇelen´ı nebo velké rozsahy v´ ybˇer˚ u, a shodné smˇerodatné odchylky):

• Stˇredn´ı hodnota pr˚ umˇeru x¯ : µx¯ = µ • Smˇerodatn´ umˇeru x¯ : √ a odchylka pr˚ σx¯ = σ/ n y tvar x¯ : z = • Normovan´

x ¯−µ √ σ/ n

t=

• z-interval pro µ (σ známé, normáln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru n):

• Sdruˇzen´ y t-interval pro µ1 − µ2 (nezávislé v´ ybˇery, normáln´ı rozdˇelen´ı nebo velké rozsahy v´ ybˇer˚ u, a shodné smˇerodatné odchylky):

• Pˇr´ıpustná chyba odhadu pro µ: σ ∆ = zα/2 √ n

q

x¯1 − x¯2 ± tα/2 sP (1/n1 ) + (1/n2 )

• t−interval pro µ (σ neznámé, normáln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru n):

s ν = n1 + n2 − 2. • Stupnˇe volnosti pro nesdruˇzené t-postupy:

s x¯ ± tα/2 √ n s ν = n − 1.

δ=

• z-testová statistika pro H0 : µ = µ0 (σ známé, normáln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru n):

[(s21 /n1 ) + (s22 /n2 )]2 (s21 /n1 )2 (s22 /n2 )2 + n1 − 1 n2 − 1

zaokrouhleno dol˚ u na nejbliˇzˇs´ı celé ˇc´ıslo.

x¯ − µ0 √ n σ

• Nesdruˇzená t-testová statistika pro hypotézu H0 : µ1 = µ2 (nezávislé v´ ybˇery a normáln´ı rozdˇelen´ı nebo velké rozsahy v´ ybˇer˚ u):

• t-testová statistika pro H0 : µ = µ0 (σ neznámé, normáln´ı rozdˇelen´ı nebo velk´ y rozsah v´ ybˇeru n): t=

sP (1/n1 ) + (1/n2 )

s ν = n1 + n2 − 2

σ x¯ ± zα/2 √ n

z=

x¯1 − x¯2

q

x¯ − µ0 √ n s

t= q

s ν = n − 1.

(¯ x1 − x¯2 ) (s21 /n1 )

+ (s22 /n2 )

s ν = δ. • Nesdruˇzen´ y t-interval pro µ1 − µ2 (nezávislé v´ ybˇery a normáln´ı rozdˇelen´ı nebo velké rozsahy v´ ybˇer˚ u):

2) Inference pro dvˇ e stˇ redn´ı hodnoty • Sdruˇzená v´ ybˇerová smˇerodatná odchylka: s

sP =

q

x¯1 − x¯2 ± tα/2 (s21 /n1 ) + (s22 /n2 )

(n1 − 1)s21 + (n2 − 1)s22 n1 + n2 − 2

s ν = δ. i

• Sdruˇzen´ y v´ ybˇerov´ y pod´ıl: pˆP =

• Párová t-testová statistika pro hypotézu H0 : µ1 = µ2 (párové v´ ybˇery a normáln´ı diference nebo velké rozsahy v´ ybˇer˚ u): d¯ √ t= sd / n

• Dvouv´ ybˇerová z-testová statistika pro H0 : p1 = p2 : pˆ1 − pˆ2 q z=q pˆP (1 − pˆP ) (1/n1 ) + (1/n2 )

s ν = n − 1.

(Pˇredpoklady: nezávislé v´ ybˇery; x1 ≥ 5 ∧ n1 − x1 ≥ 5 ∧ x2 ≥ 5 ∧ n2 − x2 ≥ 5)

• Párov´ y t-interval pro µ1 − µ2 (párové v´ ybˇery a normáln´ı diference nebo velké rozsahy v´ ybˇer˚ u):

• Dvouv´ ybˇerov´ y z-interval pro p1 − p2 : s

sd d¯ ± tα/2 √ . n

(ˆ p1 −ˆ p2 )±zα/2

s ν = n − 1.

• Pˇr´ıpustná chyba odhadu pro p1 − p2 :

x n

q

∆ = zα/2 pˆ1 (1 − pˆ1 )/n1 + pˆ2 (1 − pˆ2 )/n2

ybˇerov´ y z-interval pro p : • Jednov´ s

pˆ ± zα/2

pˆ(1 − pˆ) n

4) χ2 -postupy

(Pˇredpoklad: x ≥ 5 ∧ n − x ≥ 5)

• χ2 -testová statistika pro H0 : σ 2 = σ02 (normáln´ı rozdˇelen´ı):

• Pˇr´ıpustná chyba odhadu pro p: s

∆ = zα/2

pˆ1 (1 − pˆ1 ) pˆ2 (1 − pˆ2 ) + n1 n2

(Pˇredpoklady: nezávislé v´ ybˇery; x1 ≥ 5 ∧ n1 − x1 ≥ 5 ∧ x2 ≥ 5 ∧ n2 − x2 ≥ 5)

3) Inference pro pod´ıly • V´ ybˇerov´ y pod´ıl: pˆ =

x1 +x2 n1 +n2

χ2 =

pˆ(1 − pˆ) n

(n − 1) 2 s σ02

s ν = n − 1. • Rozsah v´ ybˇeru n pro odhadován´ı p : µ

n = pg (1−pg )

zα/2 ∆

¶2

µ

∨ n = 0.25

zα/2 ∆

• χ2 -interval pro σ 2 (normáln´ı rozdˇelen´ı):

¶2

,





(n − 1)s2 (n − 1)s2   , χ2α/2 χ21−α/2

zaokrouhleno nahoru na nejbliˇzˇs´ı celé ˇc´ıslo (pg znaˇc´ı odhad pod´ılu z´ıskan´ y na základˇe pˇredchoz´ıch znalost´ı nebo dosad´ıme pg (1 − pg ) = 0.25 = maxp∈(0,1) p(1 − p)).

• Oˇcekáváné ˇcetnosti pro χ2 test dobré shody: npi

ybˇerová z-testová statistika pro • Jednov´ H0 : p = p0 :

• testová statistika pro χ2 test dobré shody:

s ν = n − 1.

pˆ − p0

z=q

χ2 =

p0 (1 − p0 )/n

k X (ni − npi )2 i=1

(Pˇredpoklad: np0 ≥ 5 ∧ n(1−p0 ) ≥ 5)

s ν = k − 1. ii

npi

=

k X n2i i=1

npi

−n

• Oˇcekáváné ˇcetnosti pro χ2 test nezávislosti: ni• n•j , i = 1, · · · , k, j = 1, · · · , c noij = n kde n znaˇc´ı rozsah v´ ybˇeru a ni• =

c X

nij , n•j =

j=1

c X

nij test

s ν = (k−1)(c−1), kde k je poˇcet ˇra´dk˚ u a c je poˇcet sloupc˚ u v kontingenˇcn´ı tabulce. • Sxx , Sxy a Syy : Sxx =

n X

i=1

i=1

(xi − x¯)2 = n X

Sxy =

n X

i=1

Syy =

xi )2 /n

i=1

xi y i − (

i=1

n X

n X

i=1

i=1

(yi − y¯)2 =

n X

xi )(

yi )/n

n X

yi )2 /n

s

yˆp ± t α2 .se

• Predikˇcn´ı interval pro hodnotu náhodné veliˇciny Y odpov´ıdaj´ıc´ı urˇcité hodnotˇe xp :

n X

(yi − y¯)2 = Syy

s

i=1

yˆp ± t α2 .se 1 +

• Regresn´ı souˇcet ˇctverc˚ u: n X

• Testová statistika pro H0 : ρ = 0 : r t= q 2

• Residuáln´ı souˇcet ˇctverc˚ u: n X

1 (xp − x¯)2 + n Sxx

s ν = n − 2.

2 (yî − y¯)2 = Sxy /Sxx

i=1

S(y−ˆy) =

1 (xp − x¯)2 + n Sxx

s ν = n − 2.

• Celkov´ y souˇcet ˇctverc˚ u:

Syˆ =

S(y−ˆ y) n−2

• Interval spolehlivosti pro stˇredn´ı hodnotu rozdˇelen´ı náhodné veliˇciny Y odpov´ıdaj´ıc´ı urˇcité hodnotˇe xp :

i=1

• Regresn´ı rovnice: yˆ = b0 + b1 x, kde Sxy b1 = Sxx n n X 1 X b0 = ( yi − b1 xi ) = y¯ − b1 x¯ n i=1 i=1

Sy =

• Teoretická regresn´ı rovnice: y = β0 + β1 x

• Interval spolehlivosti pro β1 : se b1 ± tα/2 √ Sxx s ν = n − 2.

i=1

yi2 − (

6) Inferenˇ cn´ı metody v regresi a korelaci

• Testová statistika pro H0 : β1 = 0 : b √1 t= se / Sxx s ν = n − 2.

(xi − x¯)(yi − y¯)

i=1 n X

=

x2i − (

n X

• Koeficient determinace: S(y−ˆy) Syˆ r2 = 1 − = Sy Sy

• Reziudáln´ı rozptyl: s2e =

5) Popisn´ e metody v regresi a korelaci n X

Sy = Syˆ + S(y−ˆy)

• Lineárn´ı korelaˇcn´ı koeficient: Sxy r=q Sxx Syy

i=1

• Testová statistika pro χ2 nezávislosti: k X c X (nij − noij )2 2 χ = noij i=1 j=1

• Regresn´ı identita:

1−r n−2

2 /Sxx (yi − yî )2 = Syy − Sxy

s ν = n − 2.

i=1

iii

Fakulta dopravní PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA. Doc. RNDr. Jana Novovičová, CSc. verze 12. dubna Vydavatelství ČVUT

Recommend Documents