T Á S AT
P O
K
OLEČN
ST
*
ČE
S
ˇ e Statistick´e Spoleˇcnosti Cesk´
TICKÁ
S
InformaĀní Bulletin
IS
ˇc´ıslo 1, roˇcn´ık 19, u ´nor 2008
ˇ Zpr´ ava o ˇ cinnosti Cesk´ e statistick´ e spoleˇ cnosti v roce 2007, kter´a byla pˇrednesen´a a projednan´a na v´yroˇcn´ı sch˚uzi spoleˇcnosti dne 31. 1. 2008. 1. Z´ akladn´ı u ´daje o spoleˇ cnosti. Uplynul´ y rok byl prvn´ım rokem dvoulet´eho ˇ ˇ funkˇcn´ıho obdob´ı v´ yboru Cesk´ e statistick´e spoleˇcnosti (CStS), kter´ y byl zvolen na valn´e hromadˇe dne 8. 2. 2007. Pˇredsedou byl Doc. RNDr. Gejza Dohnal, ˇ ˇ U) ´ a CSc. (FS CVUT v Praze), m´ıstopˇredsedou Ing. Jan Fischer, CSc. (CS ˇ Praha). K dneˇsn´ımu dni hospod´ aˇrkou doc. Ing. Dagmar Blatn´ a, CSc. (VSE ˇ m´ a CStS 234 ˇclen˚ u, z toho 17 vstoupilo do spoleˇcnosti v roce 2007 a 3 v roce 2008. V roce 2007 ukonˇcili 2 ˇclenov´e ˇclenstv´ı na vlastn´ı ˇz´ adost, 1 zemˇrel. U dalˇs´ıch 2 bylo ˇclenstv´ı ukonˇceno pro neplacen´ı ˇclensk´ ych pˇr´ıspˇevk˚ u. Na vyˇrazen´ı kv˚ uli neplacen´ı je nyn´ı 10 kandid´ at˚ u (kteˇr´ı nezaplatili za 2005, 2006 a 2007). ˇ 2. Cinnost v´ yboru spoleˇ cnosti. V pr˚ ubˇehu roku se konala tˇri zased´ an´ı v´ yboru ˇ Cesk´e statistick´e spoleˇcnosti. O kaˇzd´em z nich byl poˇr´ızen z´ apis, kter´ y je vˇsem z´ ajemc˚ um k dispozici. V mezidob´ı byli ˇclenov´e v´ yboru v kontaktu prostˇrednictv´ım e-mailu a diskutovali vˇsechny d˚ uleˇzit´e z´ aleˇzitosti, zejm´ena pˇr´ıpravu akc´ı a bulletin˚ u. Kromˇe toho probˇehla ˇrada neform´ aln´ıch setk´ an´ı a porad pˇri jednotliv´ ych akc´ıch. Pˇri pˇr´ıleˇzitosti spoleˇcn´e konference STAKAN se Slovenskou ˇstatistickou a demografickou spo´loˇcnost’ou probˇehlo spoleˇcn´e jedn´ an´ı ˇclen˚ u v´ ybor˚ u obou spoleˇcnost´ı. 22. – 29. 8. 2007 se v Lisabonu konal 56. kongres ISI, kter´eho se z´ uˇcastnilo nˇekolik ˇclen˚ u v´ yboru (Antoch, ˇ Bartoˇsov´ a, Blatn´ a, Fischer, L¨ oster, Picek, Rezankov´ a). Jednu se sekc´ı, kde jsme se u ´ˇcastnili, organizovala Viszegradsk´ a skupina n´ arodn´ıch statistick´ ych ˇ spoleˇcnost´ı (Mad’arsko, Rakousko, Cesko, Slovensko, Slovinsko a Rumunsko). Pˇredseda spoleˇcnosti se z´ uˇcastnil 3. setk´ an´ı pˇredsed˚ u n´ arodn´ıch statistick´ ych spoleˇcnost´ı t´eto skupiny ve Slovinsk´e Ljubljani.
1
3. Odborn´ a aktivita spoleˇ cnosti. Valn´ a hromada v roce 2007 se konala ˇ U. ´ Na valn´e hromadˇe pˇrednesl v Praze dne 8. u ´nora 2007 v zasedac´ı s´ıni CS ˇ ´ odbornou pˇredn´ aˇsku pˇredseda CSU Ing. Jan Fischer, CSc. na t´ema Probl´emy ˇ U ´ a aspekty, statistick´e sluˇzby. Zab´ yval se v n´ı problematikou pr´ ace na CS ˇ kter´e pˇrin´ aˇs´ı souˇcasn´ a doba a technika nejen v CR, ale i v mezin´ arodn´ım kontextu. Spoleˇcnost se pod´ılela na organizaci konference Centra pro jakost a spolehlivost v´ yroby REQUEST v Praze ve dnech 30. 1. – 1. 2. 2007 ˇ Cesk´ a statistick´ a spoleˇcnost a Slovensk´ a statistick´ a a demografick´ a spoleˇcnost uspoˇr´ adaly spoleˇcnˇe v kvˇetnu (25. – 27. 5.) v Rusavˇe v Host´ ynsk´ ych vrˇs´ıch odborn´ y semin´ aˇr o v´ yuce a aplikac´ıch statistiky STAKAN 2007. Sborn´ık z t´eto konference vyˇsel jako zvl´ aˇstn´ı ˇc´ıslo Forum Statisticum Slovacum na podzim ˇ spolu s DVD. CStS pˇrevzala z´ aˇstitu nad konferenc´ı TIES’2007, jeˇz se konala 16. – 20. 8. 2007 v Mikulovˇe. 6. 12. se v Balb´ınovˇe poetick´e hosp˚ udce v Praze konal Mikul´ aˇssk´ y statistick´ y den, kde zaznˇelo celkem osm pˇr´ıspˇevk˚ u. Veˇ dle konferenc´ı a semin´ aˇr˚ u je tˇreba zm´ınit tyto dalˇs´ı odborn´e aktivity: Cesk´ a statistick´ a spoleˇcnost se stala signat´ aˇrem deklarace ke vzniku oborov´eho ˇ seskupen´ı Jakost a spolehlivost v r´ amci pˇripravovan´e Cesk´ e technologick´e platformy Stroj´ırenstv´ı. V roce 2007 byla vyd´ ana ˇctyˇri ˇc´ısla Informaˇcn´ıho bulletinu a dvˇe DVD (STAKAN a GISAK) Internetov´e str´ anky spoleˇcnosti ˇ byly pravidelnˇe udrˇzov´ any a aktualizov´ any. CStS spolupracovala na vyd´ av´ an´ı ˇcasopisu Statistika. 4. Pl´ an aktivit pro rok 2008. V dubnu se v Liberci uskuteˇcn´ı dalˇs´ı, tentokr´ at dvoudenn´ı statistick´e dny V ˇcervnu 2008 probˇehne v Praze mezin´ arodn´ı symposium ISBIS 2008 vˇenovan´e ekonomick´e a pr˚ umyslov´e statistice, na jehoˇz ˇ organizaci se naˇse spoleˇcnost pod´ıl´ı (ˇclenov´e CStS maj´ı slevu na vloˇzn´em) ˇ V l´etˇe se bude CStS pod´ılet na organizaci konference o jakosti a spolehlivosti v´ yroby v Brnˇe, jej´ımˇz hlavn´ım organiz´ atorem bude CQR 5. – 7. 9. 2008 bude naˇse spoleˇcnost organizovat v Praze mezin´ arodn´ı studentskou statistickou konferenci, spojenou se 4. setk´ an´ım pˇredsed˚ u n´ arodn´ıch statistick´ ych spoleˇcnost´ı. 8. – 12. 9. 2008 se bude konat dalˇs´ı ROBUST, tentokr´ at ve spolupr´ aci se Slovenskou statistickou a demografickou spoleˇcnost´ı.
ˇ AN ´ ´I BLAHOPR V tˇechto dnech se doˇz´ıv´ a v´ yznamn´eho ˇzivotn´ıho jubilea n´ aˇs ˇclen a kolega, doc. RNDr. Karel Zv´ ara, CSc., v´ yznamn´ y odborn´ık v oblasti regrese a aplikovan´e statistiky. Kolega Zv´ ara vˇenoval pˇrev´ aˇznou ˇc´ ast sv´eho ˇzivota v´ yuce statistiky, pˇredevˇs´ım ˇ pro nestatistiky, jakoˇz i aplikac´ım statistiky v pˇr´ırodovˇedˇe a medic´ınˇe. V´ ybor CStS, johoˇz byl kolega Zv´ ara po ˇradu let ˇclenem, mu pˇreje mnoho zdrav´ı a spokojenosti v dalˇs´ım ˇzivotˇe.
2
hustoty. Velmi ˇcasto jsou ˇcetnosti nˇekolika prostˇredn´ıch tˇr´ıd histogramu v´ yraznˇe vyˇsˇs´ı neˇz ˇcetnosti zb´ yvaj´ıc´ıch tˇr´ıd. Pˇri zkoum´an´ı modality si pak vˇs´ım´ame pouze vrchol˚ u indikovan´ ych v tˇechto prostˇredn´ıch tˇr´ıd´ach a pˇr´ıpadn´a dalˇs´ı lok´aln´ı maxima pomineme. V pˇr´ıpadˇe histogramu na obr´ azku 2(b) budeme zˇrejmˇe br´at v u ´ vahu pouze vrcholy, kter´e indikuje na intervalech (−1, −0.5] a (0, 0.5] a lok´aln´ı maximum ve tˇr´ıdˇe (−2, −1.5] budeme ch´apat sp´ıˇse jako n´ahodnou odchylku“. ” Proto se nad´ale omez´ıme pouze na studov´an´ı nˇekolika prostˇredn´ıch tˇr´ıd histogram˚ u a budeme sledovat maxima indikovan´a pouze zde. Ostatn´ı tˇr´ıdy nebudeme br´at pˇri posuzov´an´ı bimodality v u ´ vahu.
3.
Pˇ r´ıpad rozdˇ elen´ı s tup´ ym“ vrcholem ”
U nˇekter´ ych smˇes´ı nejsou vrcholy jejich sloˇzek vzd´aleny natolik, aby byla v´ ysledn´a hustota dvouvrcholov´a. M˚ uˇze tak nastat pˇr´ıpad, kdy je sice rozdˇelen´ı unimod´aln´ı, ale tento jeho jedin´ y vrchol je velmi neostr´ y“. Tak je tomu ” napˇr´ıklad u smˇesi (b) na obr´azku 1, jej´ıˇz hustota je na jak´emsi okol´ı sv´eho vrcholu t´emˇeˇr konstantn´ı. V n´asleduj´ıc´ım textu se zamˇeˇr´ıme na takov´a unimod´aln´ı rozdˇelen´ı s tup´ ym“ vrcholem a pod´ıv´ame se na odhad pravdˇepodob” nosti, s jakou se histogram v´ ybˇeru z takov´eho rozdˇelen´ı jev´ı jako bimod´aln´ı. Pro ilustraci vezmˇeme nejprve konkr´etn´ı smˇes dvou norm´aln´ıch rozdˇelen´ı N(0, 1) a N(2, 1) s v´ahami p = q = 21 (viz obr´azek 1(b)) a uvaˇzujme n´ahodnou veliˇcinu X s t´ımto rozdˇelen´ım. Zamˇeˇrme se pouze na interval [0, 2]. Rozdˇel´ımeli jej na ˇsest stejnˇe velk´ ych podinterval˚ u I1 , . . . , I6 , je pravdˇepodobnost, ˇze X padne do intervalu Ii , pˇribliˇznˇe stejn´a pro vˇsechna i = 1, . . . , 6. Podm´ınˇen´e pravdˇepodobnosti P(X ∈ Ii |X ∈ [0, 2]), i = 1, . . . , 6, jsou postupnˇe 0.1630, 0.1680, 0.1690, 0.1690, 0.1680 a 0.1630. V pˇr´ıpadˇe, ˇze se zamˇeˇr´ıme na veliˇcinu X pouze na intervalu [0, 2], tj. podm´ın´ıme-li jej´ı rozdˇelen´ı jevem X ∈ [0, 2] , dostaneme tak pˇribliˇznˇe rovnomˇern´e rozdˇelen´ı na [0, 2]. Podobnou u ´ vahu m˚ uˇzeme snadno aplikovat na rozdˇelen´ı s tup´ ym“ vr” cholem obecnˇe. Doch´az´ıme k n´asleduj´ıc´ımu z´avˇeru: Jelikoˇz jsme se pˇri posuzov´an´ı histogramu omezili pouze na zkoum´an´ı nˇekolika jeho prostˇredn´ıch tˇr´ıd, staˇc´ı n´am d´ıvat se na danou hustotu jen na nˇejak´em okol´ı jej´ıho vrcholu. Rozdˇelen´ı, jehoˇz vrchol je dostateˇcnˇe tup´ y“, m˚ uˇzeme na tomto in” tervalu dostateˇcnˇe dobˇre aproximovat rovnomˇern´ ym rozdˇelen´ım. Okamˇzitˇe se tud´ıˇz nab´ız´ı n´asleduj´ıc´ı zjednoduˇsen´ı cel´eho probl´emu: Najdeme-li odhad pravdˇepodobnosti, s jakou se histogram v´ ybˇeru z rovnomˇern´eho rozdˇelen´ı jev´ı jako bimod´aln´ı, budeme jej pak moci pouˇz´ıt i pro jak´ekoliv unimod´aln´ı rozdˇelen´ı s tup´ ym“ vrcholem. ”
27
4.
Histogramy v´ ybˇ er˚ u z rovnomˇ ern´ eho rozdˇ elen´ı
Kdy tedy ch´apeme histogram jako bimod´aln´ı? Zcela intuitivnˇe to bude v pˇr´ıpadˇe, ˇze m´a pr´avˇe dva vrcholy“. Pˇripomeˇ nme, ˇze v tomto momentˇe se jiˇz ” d´ıv´ame pouze na nˇekolik, ˇreknˇeme N , prostˇredn´ıch tˇr´ıd histogramu a ˇcetnosti ostatn´ıch nech´av´ame stranou. Bimod´aln´ı tak bude takov´ y histogram, kter´ y m´a mezi tˇemito N tˇr´ıdami pr´avˇe dvˇe maxima“, tj. splˇ nuje podm´ınku: ” Oznaˇcme zvolen´ ych N prostˇredn´ıch tˇr´ıd histogramu jako 1, 2, . . . , N a jejich odpov´ıdaj´ıc´ı ˇcetnosti n1 , n2 , . . . , nN , kde ni ≥ 0 pro vˇsechna i = 1, . . . , N . ˇ Dodefinujme n0 = nN +1 = 0. Rekneme, ˇze dan´ y histogram je bimod´ aln´ı, jestliˇze existuj´ı pˇrirozen´a ˇc´ısla M1 , M2 , M3 takov´a, ˇze plat´ı 0 < M1 < M2 < M3 < N + 1 a ni−1 ≤ ni ni−1 ≥ ni
pro i = 1, . . . , M1 , pro i = M1 + 2, . . . , M2 ,
nM1 > nM1 +1 , nM2 < nM2 +1 ,
pro i = M2 + 2, . . . , M3 ,
nM3 > nM3 +1 ,
ni−1 ≥ ni
pro i = M3 + 2, . . . , N + 1.
ni−1 ≤ ni
V takov´em pˇr´ıpadˇe budeme i pˇr´ısluˇsnou posloupnost ˇc´ısel {ni }N yvat i=1 naz´ bimod´aln´ı. Permutaci ˇc´ısel 1, . . . , N nazveme bimod´ aln´ı permutac´ı, jestliˇze je tato posloupnost ˇc´ısel bimod´aln´ı. Pro histogramy v´ ybˇer˚ u z rovnomˇern´eho rozdˇelen´ı m˚ uˇzeme dok´azat n´asleduj´ıc´ı tvrzen´ı popisuj´ıc´ı jejich chov´an´ı2: Je-li X1 , . . . , XM n´ ahodn´y v´ybˇer z rovnomˇern´eho rozdˇelen´ı na intervalu [a, b], a, b ∈ R, a N ∈ N, potom pro M → ∞ se pravdˇepodobnost, s jakou je histogram tohoto n´ ahodn´eho v´ybˇeru s N tˇr´ıdami bimod´ aln´ı, bl´ıˇz´ı k pravdˇepodobnosti, ˇze je n´ ahodn´ a permutace ˇc´ısel 1, . . . , N bimod´ aln´ı. V tabulce 1 jsou uvedeny ˇcetnosti bimod´aln´ıch permutac´ı ˇc´ısel 1, . . . , N pro N = 4, . . . , 8. Vyˇceteme z n´ı napˇr´ıklad, ˇze mezi permutacemi ˇc´ısel 1, . . . , 6 je pˇribliˇznˇe 57.8 % bimod´aln´ıch. Podle v´ yˇse uveden´eho tvrzen´ı m˚ uˇzeme hodnotu 0.578 br´at jako odhad pravdˇepodobnosti, s jakou histogram n´ahodn´eho v´ ybˇeru poch´azej´ıc´ıho z rovnomˇern´eho rozdˇelen´ı R[0, 1] s ˇsesti tˇr´ıdami vykazuje dva vrcholy. Jestliˇze tedy obecnˇe bereme pˇri posuzov´an´ı modality v u ´ vahu jen prostˇredn´ıch ˇsest tˇr´ıd histogramu, lze hodnotu 0.578 br´at i jako odhad pravdˇepodobnosti, s jakou se n´am histogram v´ ybˇeru z rozdˇelen´ı s tup´ ym“ ” vrcholem jev´ı jako bimod´aln´ı. 2 D˚ ukaz
uveden´ eho tvrzen´ı viz [1].
28
ˇ Cetnosti bimod´aln´ıch permutac´ı N 4 5 6 poˇcet vˇsech permutac´ı 24 120 720 poˇcet bimod´aln´ıch permutac´ı 16 88 416 pod´ıl bimod´aln´ıch permutac´ı 0.6 0.73 0.57
7 5040 1824 0.362
8 40320 7680 0.191
Tab. 1. Poˇcty bimod´aln´ıch permutac´ı ˇc´ısel 1, . . . , N, N = 4, . . . , 8. Jak tedy m˚ uˇzeme vidˇet, tato pravdˇepodobnost rozhodnˇe nen´ı zanedbateln´a. Proto posuzov´an´ı bimodality rozdˇelen´ı na z´akladˇe histogramu nen´ı ani v nejmenˇs´ım vhodn´e a mohlo by velmi ˇcasto v´est k nespr´avn´ ym a zav´adˇej´ıc´ım z´avˇer˚ um.
5.
Kdyˇ z ne histogram, tak co tedy?
Co tedy pouˇz´ıt v situaci, kdy potˇrebujeme zjistit, zda naˇse data poch´azej´ı z rozdˇelen´ı s jedn´ım ˇci v´ıce vrcholy? Histogram zjevnˇe nen´ı dobr´ y n´astroj. Naˇstˇest´ı existuj´ı jin´e moˇzn´e postupy. V programu R je implementov´an dip test (viz [2]), pomoc´ı kter´eho m˚ uˇzeme testovat, zda dan´ y n´ahodn´ y v´ ybˇer poch´az´ı z unimod´aln´ıho rozdˇelen´ı. Testovou statistikou je tzv. dip, kter´ y je jakousi m´ırou vzd´alenosti empirick´e distribuˇcn´ı funkce dan´eho v´ ybˇeru a tˇr´ıdy vˇsech unimod´aln´ıch distribuˇcn´ıch funkc´ı. Funkce dip z knihovny diptest spoˇc´ıt´ a pro naˇse data dip statistiku a porovn´an´ım jej´ı hodnoty s pˇr´ısluˇsn´ ym empirick´ ym kvantilem (tabulka qDiptab z t´eˇze knihovny) pak m˚ uˇzeme uˇcinit z´avˇer, zda na zvolen´e testovac´ı hladinˇe zam´ıt´ame nulovou hypot´ezu unimodality ˇci nikoliv. Pˇri konstrukci testu je nutn´e zvolit konkr´etn´ı unimod´ aln´ı rozdˇelen´ı za nulov´e hypot´ezy. Zˇrejmˇe vˇsak neexistuje takov´e, pro nˇeˇz by byla dip statistika stochasticky vˇetˇs´ı neˇz pro vˇsechna ostatn´ı unimod´aln´ı rozdˇelen´ı. Proto se vol´ı za nulov´e hypot´ezy rovnomˇern´e rozdˇelen´ı. Tato volba je velmi jednoduch´a, ale vede k testu, kter´ y je asymptoticky konzervativn´ı (viz [2]). Pro ilustraci jsou v tabulce 2 uvedeny relativn´ı ˇcetnosti v´ ybˇer˚ u generovan´ ych z rovnomˇern´eho a norm´aln´ıho rozdˇelen´ı, pro nˇeˇz byla hypot´eza unimodality dip testem na hladinˇe 0.05 zam´ıtnuta. Pro v´ ybˇery z norm´aln´ıho rozdˇelen´ı se zd´a b´ yt chyba prvn´ıho druhu znatelnˇe menˇs´ı neˇz 0.05 a pro rostouc´ı rozsah se dokonce bl´ıˇz´ı k 0. Tato skuteˇcnost potvrzuje asymptotick´e vlastnosti uk´azan´e v [2] a zm´ınˇenou konzervativnost testu.
29
rozdˇelen´ı rovnomˇern´e R[0, 1] norm´aln´ı N(0, 1)
50 0.04995 0.00292
rozsah v´ ybˇeru 100 1000 0.04867 0.04834 0.00109 0.00004
5000 0.04946 0
0.2 −2
−1
0
^ (a) xL
1
x^U
0.0
0.0
0.2
0.4
Tab. 2. Relativn´ı ˇcetnost v´ ybˇer˚ u, pro nˇeˇz byla hypot´eza unimodality dip testem na hladinˇe 0.05 zam´ıtnuta: V prvn´ım ˇr´adku jsou v´ ysledky dip testu pro 100 000 n´ahodn´ ych v´ ybˇer˚ u simulovan´ ych z rovnomˇern´eho rozdˇelen´ı, druh´ y ˇr´adek odpov´ıd´a v´ ybˇer˚ um generovan´ ym z norm´aln´ıho rozdˇelen´ı N(0, 1). Poˇc´ateˇcn´ı nastaven´ı set.seed(1023). Mohlo by n´as zaj´ımat, jak dip test posoud´ı rozdˇelen´ı v´ ybˇer˚ u, jejichˇz histogramy z obr´ azku 2 jsme diskutovali v pˇredchoz´ıch odstavc´ıch. Pˇripomeˇ nme, ˇze jde o data simulovan´a z norm´aln´ıho rozdˇelen´ı N(0, 1) o rozsahu 100 pozorov´an´ı a jejich histogramy vykazovaly v´ıce neˇz jeden vrchol. V prvn´ım pˇr´ıpadˇe jsme simulace provedli s nastaven´ım set.seed(89) a histogram indikoval dvˇe maxima. Dip statistika spoˇcten´ a pro tento v´ ybˇer vych´az´ı 0.0408. Jelikoˇz kritick´a hodnota na hladinˇe v´ yznamnosti 0.05 pro rozsah v´ ybˇeru 100 je 0.0511, dip test hypot´ezu unimodality nezam´ıt´a. Na obr´azku 3(a) je vykreslen histogram a neparametrick´ y odhad hustoty obdrˇzen´ y funkc´ı density. D´ale je zn´azornˇen odhad (ˆ xL , x ˆU ) intervalu, ve kter´em by se mˇel nach´azet vrchol rozdˇelen´ı. Pro druh´ y v´ ybˇer, generovan´ y z N(0, 1) s nastaven´ım set.seed(59), vych´az´ı dip roven 0.0256, takˇze stejnˇe jako v pˇredchoz´ım pˇr´ıpadˇe hypot´ezu unimodality na hladinˇe 0.05 nezam´ıt´ame. Grafick´e zn´azornˇen´ı viz obr´azek 3(b). V obou pˇr´ıpadech n´am tedy dip test d´av´a na naˇsi ot´azku o unimodalitˇe rozdˇelen´ı spr´avnou odpovˇed’“. ”
2
−2
0
1
^ ^ (b) xL xU
2
Obr. 3. Histogram, odhad hustoty (funkce density) a mod´aln´ıho intervalu rozdˇelen´ı n´ahodn´eho v´ ybˇeru o rozsahu 100 pozorov´an´ı simulovan´eho z N(0, 1) v programu R s nastaven´ım (a) set.seed(89) a (b) set.seed(59). 30
3
Pˇri zkoum´an´ı histogram˚ u jsme se zab´ yvali pˇredevˇs´ım smˇesmi dvou unimod´aln´ıch rozdˇelen´ı. Pod´ıvejme se proto nyn´ı na to, jak dip test funguje v takov´ ych pˇr´ıpadech. K tomuto u ´ˇcelu jsme v programu R simulovali n´ahodn´e v´ ybˇery ze smˇesi dvou norm´aln´ıch rozdˇelen´ı N(0, 1) a N(µ, 1) s v´ahami p = q = 12 s r˚ uzn´ ymi rozsahy a volbami parametru µ a sledovali jsme, jak´e v´ ysledky d´av´a dip test. Nen´ı obt´ıˇzn´e uk´azat (viz [4]), ˇze smˇes dvou norm´aln´ıch rozdˇelen´ı N(0, 1) a N(µ, 1) s v´ahami p = q = 12 je unimod´aln´ı pro |µ| ≤ 2 a bimod´aln´ı pro |µ| > 2. Tud´ıˇz bychom zˇrejmˇe pro µ > 2 oˇcek´avali zam´ıtnut´ı nulov´e hypot´ezy unimodality. V tabulce 3 jsou uvedeny v´ ysledky dip testu pro 100 000 generovan´ ych v´ ybˇer˚ u s rozsahy M = 100, 1000 a 5000 pro volby µ = 2, 2.5, 2.8, 3, 3.5 a inici´aln´ı nastaven´ı set.seed(1023) v programu R. Vid´ıme, ˇze pˇri rostouc´ım rozsahu v´ ybˇeru roste i s´ıla testu. Ale napˇr´ıklad pro µ = 2.5 a pro rozsah 5000 pozorov´an´ı jsme st´ale u 70 % v´ ybˇer˚ u hypot´ezu unimodality nezam´ıtli, pˇrestoˇze se jednalo o data z bimod´aln´ıho rozdˇelen´ı. Pˇri pouˇzit´ı dip testu se tak dost´av´ame do opaˇcn´eho probl´emu neˇz tomu bylo u histogram˚ u. Na z´akladˇe nich jsme mohli s nezanedbatelnou pravdˇepodobnost´ı povaˇzovat unimod´aln´ı rozdˇelen´ı za bimod´aln´ı. Naopak, pomoc´ı dip testu bychom mohli bimod´aln´ı rozdˇelen´ı mylnˇe oznaˇcit jako unimod´aln´ı. Rozhodnˇe je vˇsak vhodnˇejˇs´ı pˇri posuzov´an´ı bimodality pouˇz´ıt form´aln´ı dip test neˇz dˇelat nepodloˇzen´e z´avˇery na z´akladˇe histogramu indikuj´ıc´ıho dva moˇzn´e vrcholy.
µ 2.0 2.5 2.8 3.0 3.5
rozsah v´ ybˇeru 100 1000 0.00458 0.00061 0.02092 0.04888 0.05634 0.42790 0.06856 0.82634 0.38187 0.99998
M 5000 0.00008 0.30210 0.99584 1 1
Tab. 3. V´ ysledky dip testu pro 100 000 n´ahodn´ ych v´ ybˇer˚ u simulovan´ ych ze smˇesi dvou norm´aln´ıch rozdˇelen´ı N(0, 1) a N(µ, 1) s v´ahami p = q = 12 pro r˚ uzn´e hodnoty µ a r˚ uzn´e rozsahy v´ ybˇer˚ u M . V tabulce jsou uvedeny relativn´ı ˇcetnosti v´ ybˇer˚ u, pro nˇeˇz byla hypot´eza unimodality zam´ıtnuta. Pro µ = 2 je dan´a smˇes unimod´aln´ı a pro µ > 2 je smˇes bimod´ aln´ı. Vˇzdy inici´aln´ı nastaven´ı set.seed(1023) v programu R.
31
6.
Re´ aln´ y pˇ r´ıklad — ˇ ziv´ y“ histogram ”
0.00
0.03
Na zaˇc´atku naˇseho textu, v ˇc´asti 2., jsme diskutovali o subjektivn´ım postoji pˇri posuzov´an´ı histogram˚ u. Uk´azali jsme, ˇze dan´ y dvouvrcholov´ y histogram na n´as ve dvou r˚ uzn´ ych situac´ıch m˚ uˇze p˚ usobit zcela jin´ ym dojmem. V prvn´ım pˇr´ıpadˇe jsme vˇetˇs´ı poˇcet vrchol˚ u automaticky pˇripsali nepˇresnosti odhadu, jelikoˇz jsme vˇedˇeli, ˇze data poch´ azej´ı z norm´aln´ıho rozdˇelen´ı. Naopak ve druh´em pˇr´ıpadˇe jsme mˇeli data poch´azej´ıc´ı ze smˇesi dvou rozdˇelen´ı, a tak jsme dva vrcholy moˇzn´a i trochu oˇcek´ avali a nechali se proto pˇresvˇedˇcit o bimodalitˇe odpov´ıdaj´ıc´ı hustoty. Pˇr´ıkladem takov´eho jedn´an´ı, kdy byl tvar histogramu shled´an jako dostateˇcn´ y d˚ ukaz bimodality, je n´asleduj´ıc´ı situace poch´azej´ıc´ı ze ˇcl´anku [5]. Bˇehem jedn´e pˇredn´aˇsky ze statistiky seˇradil vyuˇcuj´ıc´ı sv´e studenty na ˇskoln´ım hˇriˇsti do skupin dle jejich v´ yˇsky a zkonstruoval tak jak´ ysi ˇziv´ y“ ” histogram. Jeho tvar p˚ usobil bimod´alnˇe“ (viz obr´azek 4(a)), a tak bylo ” z´abavnou formou student˚ um ilustrov´ano, ˇze rozdˇelen´ı lidsk´e v´ yˇsky, jakoˇzto smˇes dvou unimod´aln´ıch rozdˇelen´ı, m´a dva vrcholy. Bezpochyby se jednalo o velmi zdatn´ y didaktick´ y poˇcin. Avˇsak probl´em je v tom, ˇze takov´e tvrzen´ı nen´ı pravdiv´e. Autoˇri ˇcl´anku [5] se pod´ıvali na rozdˇelen´ı v´ yˇsky student˚ u v´ıce teoreticky. Na z´akladˇe dat poch´azej´ıc´ıch z ˇsetˇren´ı st´atn´ıho zdravotn´ıho centra USA odhadli parametry rozdˇelen´ı v´ yˇsky muˇz˚ u a v´ yˇsky ˇzen v odpov´ıdaj´ıc´ım vˇeku. Aplikac´ı teoretick´ ych krit´eri´ı potom zjistili, ˇze v´ ysledn´e spoleˇcn´e rozdˇelen´ı v´ yˇsky by mˇelo b´ yt unimod´aln´ı, viz obr´azek 4(b), a nikoliv bimod´aln´ı!
(a)
160
180 (b)
Obr. 4. (a) Struktura ˇziv´eho“ histogramu student˚ u: Zn´azornˇen´e ” teˇcky odpov´ıdaj´ı jednotliv´ ym student˚ um, d´ıvky a chlapci jsou barevnˇe odliˇseni. (b) Hustota rozdˇelen´ı v´ yˇsky student˚ u spoˇcten´a na z´akladˇe odhadnut´ ych parametr˚ u.
32
Z´avˇer z cel´eho experimentu je tedy sp´ıˇse rozpaˇcit´ y. M´ısto toho, aby vyuˇcuj´ıc´ı student˚ um uk´azal pˇr´ıklad bimod´aln´ıho rozdˇelen´ı, dopustil se chyby a sdˇelil jim nepravdivou informaci. Nav´ıc sv´ ym ˇz´ak˚ um (nechtˇenˇe) pˇr´ımo demonstroval nekorektn´ı postup, kter´ y ho dovedl k nespr´avn´ ym z´avˇer˚ um. A tak m˚ uˇzeme jen doufat, ˇze ˇz´adn´ y ze zm´ınˇen´ ych student˚ u nepouˇzije podobnou nepodloˇzenou u ´ vahu pˇri nˇejak´e skuteˇcnˇe d˚ uleˇzit´e anal´ yze dat.
7.
Z´ avˇ er
Z´avˇerem lze shrnout, ˇze posuzov´an´ı bimodality ˇci unimodality dan´e hustoty pouze na z´akladˇe tvaru histogramu m˚ uˇze ˇcasto v´est k nespr´avn´ ym z´avˇer˚ um. V situaci, kdy n´as skuteˇcnˇe zaj´ım´a poˇcet vrchol˚ u zkouman´eho rozdˇelen´ı, je vhodnˇejˇs´ı pouˇz´ıt jin´e postupy. Rozhodnˇe bychom se nemˇeli nechat ovlivnit naˇsimi oˇcek´av´an´ımi a d´at se strhnout k un´ahlen´ ym a nepodloˇzen´ ym soud˚ um, tak jako tomu bylo v uveden´em pˇr´ıkladˇe vyuˇcuj´ıc´ıho a v´ yˇsky jeho student˚ u.
Podˇ ekov´ an´ı: Pˇr´ıspˇevek vznikl za pomoci grantu MSM 0021620839. Reference ˇ (2006) Bimod´aln´ı rozdˇelen´ı. Diplomov´ [1] Doˇsl´a S. a pr´ ace, Univerzita Karlova, Praha. [2] Hartigan J.A., Hartigan P.M. (1985) The dip test of unimodality. Ann. Statist. 13, 70–84. [3] Kemperman J.H.B. (1991) Mixture with a limited number of modal intervals. Ann. Statist. 19, 2120–2144. [4] Robertson C.A., Fryer J.G. (1969) Some descriptive properties of normal mixtures. Skand. Aktuarietidskr. 52, 137–146. [5] Schilling M.F., Watkins A.E., Watkins W. (2002) Is human height bimodal? Amer. Statist. 56, 223–229.
33
´ SSK ˇ ´ STATISTICKY ´ DEN 2007 MIKULA Y Marek Mal´ y ´ Praha Adresa: SZU, E-mail :
[email protected] ˇ a statistick´a spoleˇcnost 6. prosince pˇredn´aˇskov´ Rok 2007 zakonˇcila Cesk´ ym semin´aˇrem v pˇr´ıjemn´em prostˇred´ı Balb´ınovy poetick´e hosp˚ udky na Vinohradech v Praze. Asi 25 posluchaˇc˚ u vyslechlo v pr˚ ubˇehu pˇetihodinov´eho programu Mikul´ aˇssk´eho statistick´eho dne osm pˇredn´aˇsek, kter´e se dotkly r˚ uzn´ ych aspekt˚ u statistick´e teorie i praxe. Mezi pˇredn´aˇsej´ıc´ı se zam´ıchal i hodn´ y ˇcert, kter´ y podˇelil mal´ ymi d´arky vˇsechny posluchaˇce, Mikul´aˇs osobnˇe k n´am tˇreba zav´ıt´a pˇr´ıˇstˇe. P. Praks a P. Zajac pˇripravili pˇredn´aˇsku o posuzov´an´ı spolehlivosti softwaru (PageRank ve statistice). D. Hlubinka se zab´ yval dotazn´ıkov´ ymi n´astroji, kter´e jsou ned´ılnou souˇc´ast´ı pr´ace kaˇzd´eho statistika pohybuj´ıc´ıho se v aplikac´ıch (O kvalitˇe vyplˇ nov´ an´ı dotazn´ık˚ u v rovn´ıkov´e Africe), P. Popela se zab´ yval d˚ uleˇzit´ ymi ot´azkami posuzov´an´ı naˇs´ı pr´ ace a hodnocen´ım ˇcinnosti vysok´ ych ˇskol (Jak v´ aˇz´ıme vˇedu). Po poledn´ı pˇrest´avce uk´azal J. Bˇel´aˇcek konkr´etn´ı aplikace statistiky v prostˇred´ı l´ekaˇrsk´e fakulty (Jak jsem doloval v datech aneb O u ´plnˇe norm´ aln´ıch regresn´ıch pˇr´ımk´ ach), J. Andˇel ve velmi zaj´ımav´e pˇredn´aˇsce ilustroval na dvou pˇr´ıkladech konstrukci regresn´ıch model˚ u jednak z pohledu moˇzn´eho vlivu grafick´eho zn´azornˇen´ı, jednak z pohledu vyuˇzit´ı dodateˇcn´e informace (Volba regresn´ıho modelu a o chyb´ ach, kter´e se pˇritom dˇelaj´ı), G. Dohnal n´am vysvˇetlil, proˇc se v ˇzivotˇe tolik naˇcek´ame (Frontov´e paradoxy), Z. Fabi´an ve vesele ladˇen´em pˇr´ıspˇevku pohovoˇril o v´aˇzn´em t´ematu (Inferenˇcn´ı funkce a parametrick´e odhady) a z´avˇerem J. Klaschka na pozad´ı praktick´e aplikace pouk´azal na u ´ skal´ı v pˇr´ıstupu l´ekaˇr˚ u ke statistice (Co je statisticky nejv´yznamnˇejˇs´ı? ). Diskuse, kter´a se rozhodnˇe net´ ykala jen semin´aˇre, n´ ybrˇz i mnoha dalˇs´ıch zaj´ımav´ ych t´emat statistick´e komunity, se po semin´aˇri pˇresunula do pˇrilehl´e kav´arny. V pr˚ ubˇehu statistick´eho dne mˇeli u ´ˇcastn´ıci v´ yjimeˇcnou moˇznost seˇ e statistick´e spoleˇcnosti v jej´ı tkat se vˇsemi pˇeti dosavadn´ımi pˇredsedy Cesk´ ˇ sedmn´actilet´e historii, tedy prof. Andˇelem, prof. Cerm´ akem, ing. Rothem, prof. Antochem a doc. Dohnalem. Nˇekter´e z pˇredn´aˇsek autoˇri pˇripravili pro publikaci v Informaˇcn´ım bulletinu, takˇze i ti, jimˇz pˇredv´anoˇcn´ı shon neumoˇznil chvilku zastaven´ı se statistikou, budou m´ıt moˇznost se s prob´ıran´ ymi t´ematy sezn´amit a tˇreba je to podn´ıt´ı k u ´ˇcasti na nˇekter´e z dalˇs´ıch akc´ı.
34
´ KONFERENCE A CTVRT ˇ ´ STUDENTSKA E ´ ´ ´ ´ ´ SETKANI NARODNICH STATISTICKYCH ˇ ´I V PRAZE SPOLECNOST Gejza Dohnal E-mail :
[email protected] Poˇc´ atkem z´ aˇr´ı (4. - 6.9. 2008) probˇehne v Praze dalˇs´ı, v poˇrad´ı jiˇz ˇctvrt´e setk´ an´ı z´ astupc˚ u n´ arodn´ıch statistick´ ych spoleˇcnost´ı. V posledn´ım ˇc´ısle IB minul´eho roku jsme V´ as informovali o 3. setk´ an´ı, kter´e se uskuteˇcnilo na podzim 2007 ve Slovinsk´e Ljubljani. Letoˇsn´ı stek´ an´ı bude spojeno s mezin´ aroidn´ı studentskou konferenc´ı o matematick´e statistice a pravdˇepodobnosti, na n´ıˇz pˇredpokl´ ad´ ame u ´ˇcast student˚ u ˇ ze vˇsech z´ uˇcastnˇen´ ych zem´ı, tj. z Ceska, Mad’arska, Slovenska, Slovinska, Rakouska a Rumunska (skupina V6). Konference bude m´ıt dvˇe sekce, jednu pro studenty ´ cast student˚ magistersk´eho studia a druhou pro doktorandy. Uˇ u na t´eto konferenci bude finanˇcnˇe podpoˇrena jejich n´ arodn´ımi statistick´ ymi spoleˇcnostmi. Pro ˇradu student˚ u by to mohla b´ yt jejich prvn´ı pˇr´ıleˇzitost vystoupit pˇred mezin´ arodn´ım f´ orem. Studenti obou typ˚ u studia (magistersk´eho i postgradu´ aln´ıho) mohou jiˇz ted’ ˇ pos´ılat sv´e pˇrihl´ aˇsky na adresu tajemn´ıka Cesk´ e statistick´e spoleˇcnosti. Pˇrihl´ aˇska by mˇela obsahovat kromˇe jm´ena studenta a kontaktu i n´ azev pˇr´ıspˇevku, kr´ atkou anotaci, n´ azev ˇskoly, obor, roˇcn´ık a pˇr´ıpadnˇe doporuˇcen´ı vedouc´ıho diplomov´e pr´ ace ˇci ˇskolitele. Pˇrijat´e pˇr´ıspˇevky budou publikov´ any v nˇekter´em z periodik, vyd´ avan´ ych statistick´ ymi spoleˇcnostmi skupiny V6.
KONFERENCE ISBIS 2008 Mezin´ arodn´ı spoleˇcnost pro obchodn´ı a pr˚ umyslovou statistiku (ISBIS) poˇr´ ad´ a kaˇzd´e dva roky mezin´ arodn´ı symposium, na nˇemˇz vystupuj´ı pˇredn´ı svˇetov´ı experti v uveden´ ych oblastech. Po Severn´ım Qeenslandu, Limˇe a Azorech se bude toto setk´ an´ı konat letos v ˇcervenci v Praze. Symposium probˇehne ve dnech 1. – 4. 7. 2008 v hotelu Andˇel na Sm´ıchovˇe v Praze 5. Hlavn´ımi poˇradateli jsou American Statistical Association, Section on Physical and Engineering Sciences a American Society for Quality, spolupoˇr´ adaj´ıc´ımi organizacemi jsou International Statistical Institute, ˇ European Network of Business and Industry Statistics a v neposledn´ı ˇradˇe i Cesk´ a ˇ statistick´ a spoleˇcnost a Centrum pro jakost a spolehlivost v´ yroby CQR. Clenov´e vˇsech z´ uˇcastnˇen´ ych organizac´ı, tedy i naˇs´ı spoleˇcnosti, maj´ı slevu na vloˇzn´em. Hlavn´ı sekce budou vˇenov´ any kvantitativn´ı anal´ yze v bankovnictv´ı, finanˇcnictv´ı a pojiˇst’ovnictv´ı. Pˇripravuj´ı se vˇsak i sekce t´ ykaj´ıc´ı se statistick´ ych metod v ˇr´ızen´ı jakosti, spolehlivosti a anal´ yzy rizik. Jejich seznam, spolu s dalˇs´ımi informacemi a registraˇcn´ım formul´ aˇrem viz http://www.action-m.com/isbis2008/index.php
35
ˇ V´ybor CStS, Zpr´ava o ˇcinnosti v roce 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 ˇ V´ybor CStS, Blahopˇr´an´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Patr´ıcia Martinkov´ a, Nˇekolik slov o reliabilitˇe sloˇzen´ ych dichotomn´ıch mˇeˇren´ı, aneb doktorandkou pana docenta Zv´ary . . . . . . . . . . . . . . . . . . . . 3 Jiˇr´ı Andˇel, Volba regresn´ıho modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Jiˇr´ı Andˇel, Jarom´ır Antoch, Pˇrij´ımac´ı zkouˇsky z matematiky na MFF UK v roce 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 ˇarka Doˇsl´ S´ a, Posuzov´an´ı bimodality na z´akladˇe histogramu . . . . . . . . . . . . 24 Marek Mal´y, Mikul´aˇssk´ y statistick´ y den 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Gejza Dohnal, Studentsk´a konference a ˇctvrt´e setk´an´ı n´arodn´ıch statistick´ ych spoleˇcnost´ı v Praze . . . . . . . . . . . . . . . . . . . . . . . 35 Konference ISBIS 2008 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
V´aˇzen´e kolegynˇe, v´aˇzen´ı kolegov´e, redakce, v´ ybor spoleˇcnosti a organiz´atoˇri si V´as dovoluj´ı pozvat na Libereck´e statistick´e dny Pr˚ umyslov´ a statistika a chemometrie, kter´e se uskuteˇcn´ı ve dnech 10. – 11. dubna v Liberci. Z´ajemci o podrobn´e informace necht’ se obr´at´ı na doc. RNDr. Aleˇse Linku, CSc. (
[email protected]).
ˇ ISSN 1210 – 8022. Informaˇ cn´ı Bulletin Cesk´ e statistick´ e spoleˇ cnosti vych´ az´ı ˇ ctyˇrikr´ at do roka v ˇ cesk´ em vyd´ an´ı. Pˇr´ıleˇ zitostnˇ e i mimoˇra ´dn´ eˇ cesk´ e a anglick´ eˇ c´ıslo. ´ ˇ Pˇ redseda spoleˇ cnosti: Doc. RNDr. Gejza Dohnal, CSc., UTM FS CVUT v Praze, Karlovo n´ amˇ est´ı 13, 121 35 Praha 2, e-mail:
[email protected] ˇ ´ k, DrSc. (pˇredseda), Prof. RNDr. Jarom´ır Antoch, Ediˇ cn´ı rada: Prof. Ing. V´ aclav Cerm a ´ , CSc., Doc. RNDr. Jiˇr´ı Micha ´ lek, CSc., Doc. Ing. Josef Tvrd´ık, CSc., RNDr. Marek Maly ´ , CSc. CSc., Doc. RNDr. Zdenˇ ek Karp´ıˇ sek, CSc. a Prof. Ing. Jiˇr´ı Militky Techniˇ ct´ı redaktoˇ ri: Doc. RNDr. Gejza Dohnal, CSc.,
[email protected] ˇ´ıˇ a Ing. Pavel Str z, Ph.D.,
[email protected] Pokyny autor˚ um:
FTP: exp.uis.fame.utb.cz; uˇ zivatel: csts; heslo: csts WEB server:
36