T Á S AT
P O
K
OLEČN
ST
*
ČE
S
ˇ e Statistick´e Spoleˇcnosti Cesk´
TICKÁ
S
InformaĀní Bulletin
IS
ˇc´ıslo 1, roˇcn´ık 19, u ´nor 2008
ˇ Zpr´ ava o ˇ cinnosti Cesk´ e statistick´ e spoleˇ cnosti v roce 2007, kter´a byla pˇrednesen´a a projednan´a na v´yroˇcn´ı sch˚uzi spoleˇcnosti dne 31. 1. 2008. 1. Z´ akladn´ı u ´daje o spoleˇ cnosti. Uplynul´ y rok byl prvn´ım rokem dvoulet´eho ˇ ˇ funkˇcn´ıho obdob´ı v´ yboru Cesk´ e statistick´e spoleˇcnosti (CStS), kter´ y byl zvolen na valn´e hromadˇe dne 8. 2. 2007. Pˇredsedou byl Doc. RNDr. Gejza Dohnal, ˇ ˇ U) ´ a CSc. (FS CVUT v Praze), m´ıstopˇredsedou Ing. Jan Fischer, CSc. (CS ˇ Praha). K dneˇsn´ımu dni hospod´ aˇrkou doc. Ing. Dagmar Blatn´ a, CSc. (VSE ˇ m´ a CStS 234 ˇclen˚ u, z toho 17 vstoupilo do spoleˇcnosti v roce 2007 a 3 v roce 2008. V roce 2007 ukonˇcili 2 ˇclenov´e ˇclenstv´ı na vlastn´ı ˇz´ adost, 1 zemˇrel. U dalˇs´ıch 2 bylo ˇclenstv´ı ukonˇceno pro neplacen´ı ˇclensk´ ych pˇr´ıspˇevk˚ u. Na vyˇrazen´ı kv˚ uli neplacen´ı je nyn´ı 10 kandid´ at˚ u (kteˇr´ı nezaplatili za 2005, 2006 a 2007). ˇ 2. Cinnost v´ yboru spoleˇ cnosti. V pr˚ ubˇehu roku se konala tˇri zased´ an´ı v´ yboru ˇ Cesk´e statistick´e spoleˇcnosti. O kaˇzd´em z nich byl poˇr´ızen z´ apis, kter´ y je vˇsem z´ ajemc˚ um k dispozici. V mezidob´ı byli ˇclenov´e v´ yboru v kontaktu prostˇrednictv´ım e-mailu a diskutovali vˇsechny d˚ uleˇzit´e z´ aleˇzitosti, zejm´ena pˇr´ıpravu akc´ı a bulletin˚ u. Kromˇe toho probˇehla ˇrada neform´ aln´ıch setk´ an´ı a porad pˇri jednotliv´ ych akc´ıch. Pˇri pˇr´ıleˇzitosti spoleˇcn´e konference STAKAN se Slovenskou ˇstatistickou a demografickou spo´loˇcnost’ou probˇehlo spoleˇcn´e jedn´ an´ı ˇclen˚ u v´ ybor˚ u obou spoleˇcnost´ı. 22. – 29. 8. 2007 se v Lisabonu konal 56. kongres ISI, kter´eho se z´ uˇcastnilo nˇekolik ˇclen˚ u v´ yboru (Antoch, ˇ Bartoˇsov´ a, Blatn´ a, Fischer, L¨ oster, Picek, Rezankov´ a). Jednu se sekc´ı, kde jsme se u ´ˇcastnili, organizovala Viszegradsk´ a skupina n´ arodn´ıch statistick´ ych ˇ spoleˇcnost´ı (Mad’arsko, Rakousko, Cesko, Slovensko, Slovinsko a Rumunsko). Pˇredseda spoleˇcnosti se z´ uˇcastnil 3. setk´ an´ı pˇredsed˚ u n´ arodn´ıch statistick´ ych spoleˇcnost´ı t´eto skupiny ve Slovinsk´e Ljubljani.
1
3. Odborn´ a aktivita spoleˇ cnosti. Valn´ a hromada v roce 2007 se konala ˇ U. ´ Na valn´e hromadˇe pˇrednesl v Praze dne 8. u ´nora 2007 v zasedac´ı s´ıni CS ˇ ´ odbornou pˇredn´ aˇsku pˇredseda CSU Ing. Jan Fischer, CSc. na t´ema Probl´emy ˇ U ´ a aspekty, statistick´e sluˇzby. Zab´ yval se v n´ı problematikou pr´ ace na CS ˇ kter´e pˇrin´ aˇs´ı souˇcasn´ a doba a technika nejen v CR, ale i v mezin´ arodn´ım kontextu. Spoleˇcnost se pod´ılela na organizaci konference Centra pro jakost a spolehlivost v´ yroby REQUEST v Praze ve dnech 30. 1. – 1. 2. 2007 ˇ Cesk´ a statistick´ a spoleˇcnost a Slovensk´ a statistick´ a a demografick´ a spoleˇcnost uspoˇr´ adaly spoleˇcnˇe v kvˇetnu (25. – 27. 5.) v Rusavˇe v Host´ ynsk´ ych vrˇs´ıch odborn´ y semin´ aˇr o v´ yuce a aplikac´ıch statistiky STAKAN 2007. Sborn´ık z t´eto konference vyˇsel jako zvl´ aˇstn´ı ˇc´ıslo Forum Statisticum Slovacum na podzim ˇ spolu s DVD. CStS pˇrevzala z´ aˇstitu nad konferenc´ı TIES’2007, jeˇz se konala 16. – 20. 8. 2007 v Mikulovˇe. 6. 12. se v Balb´ınovˇe poetick´e hosp˚ udce v Praze konal Mikul´ aˇssk´ y statistick´ y den, kde zaznˇelo celkem osm pˇr´ıspˇevk˚ u. Veˇ dle konferenc´ı a semin´ aˇr˚ u je tˇreba zm´ınit tyto dalˇs´ı odborn´e aktivity: Cesk´ a statistick´ a spoleˇcnost se stala signat´ aˇrem deklarace ke vzniku oborov´eho ˇ seskupen´ı Jakost a spolehlivost v r´ amci pˇripravovan´e Cesk´ e technologick´e platformy Stroj´ırenstv´ı. V roce 2007 byla vyd´ ana ˇctyˇri ˇc´ısla Informaˇcn´ıho bulletinu a dvˇe DVD (STAKAN a GISAK) Internetov´e str´ anky spoleˇcnosti ˇ byly pravidelnˇe udrˇzov´ any a aktualizov´ any. CStS spolupracovala na vyd´ av´ an´ı ˇcasopisu Statistika. 4. Pl´ an aktivit pro rok 2008. V dubnu se v Liberci uskuteˇcn´ı dalˇs´ı, tentokr´ at dvoudenn´ı statistick´e dny V ˇcervnu 2008 probˇehne v Praze mezin´ arodn´ı symposium ISBIS 2008 vˇenovan´e ekonomick´e a pr˚ umyslov´e statistice, na jehoˇz ˇ organizaci se naˇse spoleˇcnost pod´ıl´ı (ˇclenov´e CStS maj´ı slevu na vloˇzn´em) ˇ V l´etˇe se bude CStS pod´ılet na organizaci konference o jakosti a spolehlivosti v´ yroby v Brnˇe, jej´ımˇz hlavn´ım organiz´ atorem bude CQR 5. – 7. 9. 2008 bude naˇse spoleˇcnost organizovat v Praze mezin´ arodn´ı studentskou statistickou konferenci, spojenou se 4. setk´ an´ım pˇredsed˚ u n´ arodn´ıch statistick´ ych spoleˇcnost´ı. 8. – 12. 9. 2008 se bude konat dalˇs´ı ROBUST, tentokr´ at ve spolupr´ aci se Slovenskou statistickou a demografickou spoleˇcnost´ı.
ˇ AN ´ ´I BLAHOPR V tˇechto dnech se doˇz´ıv´ a v´ yznamn´eho ˇzivotn´ıho jubilea n´ aˇs ˇclen a kolega, doc. RNDr. Karel Zv´ ara, CSc., v´ yznamn´ y odborn´ık v oblasti regrese a aplikovan´e statistiky. Kolega Zv´ ara vˇenoval pˇrev´ aˇznou ˇc´ ast sv´eho ˇzivota v´ yuce statistiky, pˇredevˇs´ım ˇ pro nestatistiky, jakoˇz i aplikac´ım statistiky v pˇr´ırodovˇedˇe a medic´ınˇe. V´ ybor CStS, johoˇz byl kolega Zv´ ara po ˇradu let ˇclenem, mu pˇreje mnoho zdrav´ı a spokojenosti v dalˇs´ım ˇzivotˇe.
2
ˇ ˇ NEKOLIK SLOV O RELIABILITE ˇ ´ ´ ˇ REN ˇ ´I SLOZENYCH DICHOTOMNICH ME ON RELIABILITY OF COMPOSED DICHOTOMOUS MEASUREMENTS aneb doktorandkou pana docenta Zv´ ary Patr´ıcia Martinkov´ a ˇ UI ´ AV CR, ˇ Praha Adresa: EuroMISE centrum UK a AV CR, E-mail :
[email protected] Abstract This remark concentrates on generalization of popular Cronbach alpha for the case when the measurements are dichotomous. Main result is a new definition of reliability for this type of measurements based on conditional expectation and conditional variance. V jednom z pˇredchoz´ıch ˇc´ısel Informaˇcn´ıho Bulletinu (viz [1]) pojednal pan docent Zv´ara o reliabilitˇe mˇeˇren´ı a o Cronbachovˇe alfa, kter´e se k jej´ımu odhadu ˇcasto pouˇz´ıv´a. V z´avˇeru ˇcl´anku nast´ınil ot´azku, zda m´ame pr´avo pouˇz´ıt postup zaloˇzen´ y na pˇredstavˇe o spojit´ ych veliˇcin´ach i v pˇr´ıpadˇe, kdy poloˇzky sloˇzen´eho mˇeˇren´ı jsou v´ yhradnˇe nulajedniˇckov´e. V takov´em pˇr´ıpadˇe autor navrhl nahradit Cronbachovo alfa, jehoˇz odhad lze ve sm´ıˇsen´em modelu anal´ yzy rozptylu vyj´adˇrit pomoc´ı testov´e statistiky F , jeho obdobou z logistick´e regrese, vyuˇz´ıvaj´ıc´ı testovou statistiku jinak slouˇz´ıc´ı k testov´an´ı analogick´e hypot´ezy. Za dobu posledn´ıch ˇctyˇr let jsem mˇela tu ˇcest pod veden´ım pana docenta Zv´ary b´adat pr´avˇe nad definov´an´ım a odhadov´an´ım reliability v pˇr´ıpadˇe sloˇzen´ ych dichotomn´ıch mˇeˇren´ı. Dovolte mi tu zm´ınit nˇekter´e v´ ysledky tohoto b´ad´an´ı. Za hlavn´ı v´ ysledek pr´ace povaˇzuji navrˇzen´ı obecnˇejˇs´ı definice reliability pomoc´ı podm´ınˇen´e stˇredn´ı hodnoty a podm´ınˇen´eho rozptylu rel(Y ) =
var [E(Y |A)] var [E(Y |A)] = . var [E(Y |A)] + E [var(Y |A)] var(Y )
(1)
Nov´a definice, stejnˇe jako ta klasick´a, vyjadˇruje relativn´ı d´ıl celkov´e variability mˇeˇren´ı Y zp˚ usoben´ y variabilitou mˇeˇren´e vlastnosti A. V pˇr´ıpadˇe sm´ıˇsen´eho modelu anal´ yzy rozptylu obˇe definice spl´ yvaj´ı. Nav´ıc vˇsak novou definici vyuˇzijeme u model˚ u, v nichˇz nevystupuje chyba mˇeˇren´ı. Takov´ ym 3
modelem je i Rasch˚ uv model, bˇeˇznˇe pouˇz´ıvan´ y pro popis vlastnost´ı didaktick´ ych test˚ u s nulajedniˇckov´ ymi poloˇzkami. D´ıky tomu, ˇze se n´am podaˇrilo vyj´adˇrit reliabilitu v Raschovˇe modelu a dalˇs´ıch modelech vhodn´ ych pro popis sloˇzen´ ych dichotomn´ıch mˇeˇren´ı, bylo pak moˇzn´e, zat´ım alespoˇ n pomoc´ı simulac´ı, posoudit pouˇzitelnost odhadu navrˇzen´eho v [1]. Zd´a se, ˇze v nˇekter´ ych pˇr´ıpadech novˇe navrˇzen´e logistick´e alfa odhaduje reliabilitu l´epe neˇz alfa Cronbachovo. V´ ysledky byly publikov´any v ˇcl´anku [2]. V´ yrazem (1) navazujeme na pr´aci [3], jej´ıˇz tvrzen´ı o ekvivalentn´ı definici pro modely se spoleˇcn´ ym koeficientem vnitrotˇr´ıdn´ı korelace se n´am podaˇrilo uv´est na pravou m´ıru – naj´ıt protipˇr´ıklady a dok´azat tvrzen´ı spr´avn´e. Podaˇrilo se d´ıky tomu tak´e nahradit poˇzadavky klasick´e τ -ekvivalence tak, ˇze Spearmanova-Brownova formule pro reliabilitu mˇeˇren´ı sloˇzen´eho z m poloˇzek z˚ ust´av´a i nad´ale v platnosti. Postgradu´aln´ı studium pod veden´ım pana docenta pro mne bylo velice ˇ pˇr´ınosn´e. Skolitel se mi stal velk´ ym vzorem nejen jako vˇedec, ale tak´e jako pedagog s v´ yteˇcnˇe propracovanou pˇr´ıpravou (jak pro studenty tak pro sv´e cviˇc´ıc´ı), jako praktick´ y statistik s mnoha zkuˇsenostmi a v neposledn´ı ˇradˇe jako nesm´ırnˇe schopn´ y, ochotn´ y a f´erov´ y ˇclovˇek. Cen´ım si vˇsech tˇech mnoha hodin konzultac´ı o to v´ıc, ˇze mi byly vˇenov´ any nesm´ırnˇe vyt´ıˇzen´ ym ˇclovˇekem. Bylo mi aˇz s podivem, kolik r˚ uzn´ ych ˇcinnost´ı pan docent zvl´ad´a. Jednou pˇrich´azel s rol´ı pap´ır˚ u pod paˇz´ı se slovy Projekt rekonstrukce v Karl´ınˇe, ” Ferda Mravenec, pr´ace vˇseho druhu!“ Jindy zase pˇrekl´adal na stole sv´e pracovny ˇstosy s r˚ uzn´ ymi u ´ koly Tak kde V´as m´am!“ Snad pro to velk´e pracovn´ı ” vyt´ıˇzen´ı, snad pro pocit, ˇze to b´ad´an´ı je aˇz pˇr´ıliˇs aplikovan´e, jsem obˇcas mohla slyˇset To v´ıte, j´a mnoho doktorand˚ u nevedl.“ Mysl´ım si, ˇze to je velk´a ˇskoda. ” A pˇr´ala bych jeˇstˇe alespoˇ n jednomu doktorandovi tohoto v´ yteˇcn´eho ˇskolitele. Nezb´ yv´a mi neˇz z´avˇerem tohoto pˇr´ıspˇevku podˇekovat panu docentovi za vˇsechen ˇcas, kter´ y mi vˇenoval, i za trpˇelivost, kterou se mnou mˇel bˇehem cel´eho m´eho studia, a popˇr´at oslavenci mnoho zdrav´ı, ˇstˇest´ı, a spokojenosti do dalˇs´ıch let.
Reference [1] Zv´ara K. (2003) Reliabilita mˇeˇren´ı aneb bacha na Cronbacha. Informaˇcn´ı ˇ e Statistick´e Spoleˇcnosti 13(2), 13–20. bulletin Cesk´ [2] Martinkov´a P., Zv´ara K. (2007) Reliability in the Rasch model. Kybernetika 43(3), 315–326. [3] Commenges D., Jacqmin H. (1994): The intraclass correlation coefficient distribution-free definition and test. Biometrics 50(2), 517–526.
4
VOLBA REGRESN´IHO MODELU HOW TO CHOSE REGRESSION MODEL Jiˇ r´ı Andˇ el Adresa: MFF UK, KPMS, Praha E-mail :
[email protected] Abstract This contribution concentrates on typical errors connected with the choice of the regression model. Most frapant erros are illustrated using two examples. The first one shows influence of the graphical representation of the data. The second one shows how important is not to neglect the additional information about the data and their genesis. All calculations were done using the program R.
1.
´ Uvod
V tomto pˇr´ıspˇevku je pojedn´ano o chyb´ach, kter´e se dˇelaj´ı pˇri volbˇe regresn´ıho modelu. Tyto chyby jsou ilustrov´any na dvou numerick´ ych pˇr´ıkladech. V prvn´ım z nich se posuzuje vliv grafick´eho zn´azornˇen´ı dat na konstrukci modelu. Ve druh´em pˇr´ıkladˇe je pouk´az´ano na d˚ uleˇzitost vyuˇzit´ı dodateˇcn´e informace o datech. V´ ypoˇcty jsou prov´adˇeny pomoc´ı programu R, kter´ y lze z´ıskat na adrese http://www.R-project.org/.
2.
Volba modelu zaloˇ zen´ a na grafick´ em zn´ azornˇ en´ı dat
Grafy ve statistice hraj´ı velmi d˚ uleˇzitou u ´ lohu. Everitt (2005) na str. 16 cituje v´ yrok pˇrevzat´ y z publikace Chambers a kol. (1983): . . . there is no statistical ” tool that is as powerful as a well-chosen graph“ 1 . Zd˚ uraznˇeme, ˇze mezi autory poslednˇe citovan´e knihy jsou tak slavn´ı statistici jako je Cleveland ˇci Tukey. Odhaduje se, ˇze se roˇcnˇe tiskne asi 1012 statistick´ ych graf˚ u. Jedn´ım z d˚ uvod˚ u grafick´eho zn´azornˇen´ı dat je to, ˇze je ˇclovˇek schopen vyˇc´ıst z nich z´akonitosti. Plat´ı vˇsak varov´an´ı Carla Sagana: Humans are good at discerning subtle ” patterns that are really there, but equally so at imagining them when they are altogether absent.“ 2 V tabulce 1 jsou uvedena data, kter´a budeme analyzovat. P˚ uvod a skuteˇcn´ y mechanismus vzniku tˇechto dat je zn´am a bude uveden pozdˇeji pro porovn´an´ı s dosaˇzen´ ymi v´ ysledky. Ostatnˇe i kdyby napˇr´ıklad v´ yzkumn´ık sdˇelil, ˇze 1 Z´ ˇ adn´ y
jin´ y statistick´ y n´ astroj nen´ı tak mocn´ y jako spr´ avnˇ e zvolen´ y graf. dobˇre dok´ aˇ z´ı rozezn´ avat subtiln´ı z´ akonitosti, kter´ e tam opravdu jsou, ale zrovna tak dobˇre si je dok´ aˇ z´ı pˇredstavit, i kdyˇ z tam v˚ ubec nejsou. 2 Lid´ e
5
tˇreba nez´avisle promˇenn´a ud´av´a koncentraci hexametyl´entetram´ınu a z´avisle promˇenn´a koncentraci pentaerytritolu, asi by to vˇetˇsinˇe z n´as nepˇrineslo v´ıc informace neˇz to, ˇze xi jsou hodnoty nez´avisle promˇenn´e a yi jsou hodnoty z´avisle promˇenn´e. Poznamenejme, ˇze v tabulce 1 jsou uvedeny zaokrouhlen´e hodnoty. Dalˇs´ı v´ ypoˇcty byly provedeny s p˚ uvodn´ımi daty, kter´a byla prezentov´ana na v´ıc desetinn´ ych m´ıst. i xi yi
1 2.38 2.89
2 1.03 3.18
3 0.19 0.89
4 0.49 3.30
5 2.52 2.24
6 0.11 1.00
7 0.46 2.42
8 0.28 0.17
9 1.39 2.53
10 0.03 0.01
Tab. 1. Data, kter´a je tˇreba statisticky analyzovat.
0.5
1.0
1.5
2.0
2.5
0.0
0.5
1.0
1.5
2.0
x
Kvadr. funkce
Kubic. funkce
2.5
2.0 1.0 0.0
0.0
1.0
y
2.0
3.0
x
3.0
0.0
y
2.0 0.0
1.0
y
2.0 0.0
1.0
y
3.0
Lin. funkce
3.0
Body
0.0
0.5
1.0
1.5
2.0
2.5
0.0
0.5
x
1.0
1.5
2.0
2.5
x
Obr. 1. Data a regresn´ı funkce. Tato data jsou zn´ azornˇena na obr´ azku 1, kde jsou tak´e prezentov´ any grafy nˇekter´ ych regresn´ıch funkc´ı. V´ ysledky, kter´e se t´ ykaj´ı v´ ypoˇctu regresn´ı pˇr´ımky, jsou:
6
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.1900 0.4855 2.451 0.0399 * x 0.7558 0.3886 1.945 0.0877 . Residual standard error: 1.079 on 8 degrees of freedom Multiple R-Squared: 0.321, Adjusted R-squared: 0.2361 F-statistic: 3.782 on 1 and 8 DF, p-value: 0.08772
9 8
1 0 −1.5
Fitted values
0.0
0.4
0.8
Cook’s distance
9
0.5 1.0 1.5 2.0 2.5 3.0 3.5
0.0 0.1 0.2 0.3 0.4 0.5
Cook’s distance plot
4
1.2
−0.5 0.0 0.5 1.0 1.5
Theoretical Quantiles
Scale−Location plot Standardized residuals
9
8
0.5 1.0 1.5 2.0 2.5 3.0 3.5
8
4
−1
4
2
Normal Q−Q plot Standardized residuals
0.0 0.5 1.0 1.5 −1.0
Residuals
Residuals vs Fitted
9
4 8
2
Fitted values
4
6
8
10
Obs. number
Obr. 2. Diagnostick´e grafy ke kvadratick´e regresi. Regresn´ı koeficient sice nen´ı statisticky signifikantn´ı na bˇeˇzn´e hladinˇe 5 %, protoˇze jeho p-hodnota je 0.088, ale data sp´ıˇs odpov´ıdaj´ı kvadratick´e regresi. V´ ysledky kvadratick´e regrese jsou Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.2786 0.4948 0.563 0.5910 x 4.0411 1.2475 3.239 0.0143 * I(x^2) -1.2865 0.4751 -2.708 0.0303 * Residual standard error: 0.8062 on 7 degrees of freedom Multiple R-Squared: 0.6684, Adjusted R-squared: 0.5736 F-statistic: 7.054 on 2 and 7 DF, p-value: 0.02100
7
Zde je na hladinˇe 5 % v´ yznamn´ y line´arn´ı i kvadratick´ y ˇclen, takˇze bychom se mohli pˇriklonit k tomu, ˇze dat˚ um odpov´ıd´a kvadratick´a regrese. Poznamenejme, ˇze v pˇr´ıpadˇe kubick´e regrese bude signifikantn´ı jen line´arn´ı ˇclen, kdeˇzto ani kvadratick´ y ani kubick´ y ˇclen signifikantn´ı nebudou. To nad´ale svˇedˇc´ı ve prospˇech kvadratick´e regrese. Pˇrid´ame jeˇstˇe diagnostick´e grafy (viz obr´azek 2), jeˇz nasvˇedˇcuj´ı tomu, ˇze regresn´ı model odpov´ıd´a dat˚ um. Na druh´e stranˇe vˇsak kvadratick´a funkce uveden´a na obr´azku 1 nen´ı monot´onn´ı. Pokud bychom vˇedˇeli, ˇze m´a j´ıt napˇr. o r˚ ustovou kˇrivku, monot´onie by se mˇela nutnˇe vyˇzadovat. Pro ilustraci zde uvedeme jednu m´alo zn´amou r˚ ustovou kˇrivku c−x lp(x, a, b, p, c) = a − bp ln 1 + exp , p kter´a se naz´ yv´a linear-plateau regression function (ˇcesky by se snad mohlo ˇr´ıci line´ arn´ı regresn´ı funkce se stabiln´ı hladinou). Graf t´eto funkce pˇripom´ın´a dvˇe navazuj´ıc´ı pˇr´ımky. Jedna z nich je rostouc´ı a druh´a konstantn´ı. Parametry t´eto regresn´ı funkce maj´ı n´asleduj´ıc´ı interpretaci
lp(x, p = 0.1)
0
10 0
lp(x, p = 1)
20
hodnota z´avisle promˇenn´e v bodˇe zmˇeny, smˇernice rostouc´ı pˇr´ımky, hodnota nez´avisle promˇenn´e v bodˇe zmˇeny, hladkost pˇrechodu mezi obˇema pˇr´ımkami.
10
a ... b ... c ... p ...
20
• • • •
0
10 x
20
0
10 x
20
Obr. 3. Pr˚ ubˇeh lp(x) s parametry a=20, b=2, p=1, c=10 (vlevo) a s parametry a=20, b=2, p=0.1, c=10 (vpravo). Proloˇzen´ı t´eto funkce naˇsimi daty vedlo k v´ ysledku a 2.708
b p c 5.9282 0.000694 0.498
Body a proloˇzen´a funkce jsou zobrazeny na obr´azku 4. 8
3.0 2.0 0.0
1.0
yy
0.0
0.5
1.0
1.5
2.0
2.5
xx Obr. 4. Funkce lp(x) proloˇzen´a metodou nejmenˇs´ıch ˇctverc˚ u. Je vˇsak na ˇcase uv´est, jak byla v´ ychoz´ı data z´ısk´ana. Byla generov´ana na poˇc´ıtaˇci jako nez´avisl´e n´ahodn´e veliˇciny. Pˇritom xi ∼ N(1, 1), yi ∼ N(2, 1). Nastaven´ı gener´atoru n´ahodn´ ych ˇc´ısel pomoc´ı pˇr´ıkazu set.seed(1203) bylo provedeno z toho d˚ uvodu, ˇze tuto konstantu pouˇz´ıv´a ve sv´ ych ilustrac´ıch Everitt (2005). Proˇc tedy doˇslo k tak signifikantn´ımu prok´az´an´ı nespr´avn´eho modelu? D˚ uvodem m˚ uˇze b´ yt nˇekter´a z n´asleduj´ıc´ıch pˇr´ıˇcin. • Gener´ator nen´ı dostateˇcnˇe kvalitn´ı. • Pˇri statistick´em hodnocen´ı se pracuje s urˇcitou hodnotou pravdˇepodobnosti chyby prvn´ıho druhu, nejˇcastˇeji to je 0.05. Poˇc´ıt´a se tedy s t´ım, ˇze zhruba jednou ve dvaceti pˇr´ıpadech vyjde signifikantnˇe v´ ysledek, kter´ y by ve skuteˇcnosti signifikantn´ı b´ yt nemˇel. Gener´atory n´ahodn´ ych ˇc´ısel b´ yvaj´ı podrobnˇe testov´any. Pouˇzit´a ˇc´ast gener´atoru byla v literatuˇre, jak jiˇz bylo v´ yˇse zm´ınˇeno, mnohokr´at pouˇzita. Pokud jde o druh´ y argument, je dobr´e pˇripomenout, ˇze se dosaˇzen´e p-hodnoty bl´ıˇz´ı hladinˇe 0.01. Z´ıskan´ y signifikantn´ı v´ ysledek je nejsp´ıˇs v´ ysledkem toho, ˇze jsme si hypot´ezu vytvoˇrili teprve na z´akladˇe z´ıskan´ ych dat. To je principem ˇcinnosti naz´ yvan´e data mining“. Ta vede k vytv´aˇren´ı hypot´ez o modelu, kter´ ym se ” data ˇr´ıd´ı. Statistick´e ovˇeˇren´ı modelu se vˇsak mus´ı prov´adˇet na zcela nov´ ych datech. Poˇrizov´an´ı dat b´ yv´a v experiment´aln´ıch vˇed´ach n´akladn´e a ˇcasovˇe n´aroˇcn´e. Z tohoto d˚ uvodu se nˇekdy obˇe f´aze rozboru, tedy jak data mi” ning“, tak i statistick´e ovˇeˇrov´an´ı, prov´adˇej´ı na t´emˇz souboru dat. T´ım se snadno mohou prok´azat z´akonitosti, kter´e v˚ ubec neexistuj´ı. To jsme na v´ yˇse uveden´em umˇel´em pˇr´ıkladˇe pˇredvedli.
9
3.
Upˇ resnˇ en´ı modelu pomoc´ı dodateˇ cn´ e informace
Van Belle (2002) uv´ad´ı n´asleduj´ıc´ı statistick´ y pˇr´ıklad. Pˇredstavme si, jak Galileo zkoum´a vztah ˇcasu a d´elky voln´eho p´adu. Z urˇcit´e v´ yˇsky h na vˇeˇzi v Pise pouˇst´ı tˇeˇzkou dˇelovou kouli a zjiˇst’uje dobu t, po kterou koule pad´a k zemi. V´ ysledky jsou uvedeny v tabulce 2. h 10 10 15 15 20
t 1.8 1.2 1.6 1.7 2.2
h 20 25 25 30 30
t 2.2 2.2 2.2 2.7 2.2
h 35 35 40 40 45
t 2.7 3.0 2.7 2.5 2.9
h 45 50 50 55 55
t 2.8 2.6 3.0 3.3 3.7
Tab. 2. V´ yˇska h v metrech a doba p´adu t v sekund´ach. Analyzujme nejprve z´avislost h na t bˇeˇzn´ ymi regresn´ımi metodami, aniˇz bychom brali v u ´ vahu znalost vzorc˚ u pro voln´ y p´ad nebo nˇekter´e dalˇs´ı informace.
30
h
0
10
10
20
20
30
h
40
40
50
50
primka parabola
1.5
2.0
2.5
3.0
3.5
0
t
1
2
3
4
t
Obr. 5. Galileova data (vlevo) a line´arn´ı a kvadratick´a regrese (vpravo). Pokud proloˇz´ıme regresn´ı pˇr´ımku, dostaneme Estimate Std. Error t value Pr(>|t|) (Intercept) -21.734 6.040 -3.598 0.00206 ** t 22.046 2.387 9.235 2.99e-08 *** Residual standard error: 6.32 on 18 degrees of freedom Multiple R-Squared: 0.8257, Adjusted R-squared: 0.8161 F-statistic: 85.29 on 1 and 18 DF, p-value: 2.995e-08 V´ ysledkem je rovnice regresn´ı pˇr´ımky s = −21.734 + 22.046t, kter´a je zn´azornˇena na obr´azku 5 vpravo. Oba parametry regresn´ı pˇr´ımky jsou signifikantn´ı. 10
Provedeme Durbin˚ uv-Watson˚ uv test a dostaneme lag Autocorrelation D-W Statistic p-value 1 0.304 1.271 0.046 Alternative hypothesis: rho != 0 V´ ysledek je signifikantn´ı, coˇz signalizuje poruˇsen´ı pˇredpoklad˚ u regresn´ı anal´ yzy. Proloˇz´ıme kvadratickou regresn´ı funkci a dostaneme (Intercept) t I(t^2)
Estimate Std. Error t value Pr(>|t|) -21.967 18.596 -1.181 0.254 22.251 15.558 1.430 0.171 -0.042 3.165 -0.013 0.990
Residual standard error: 6.503 on 17 degrees of freedom Multiple R-Squared: 0.8257, Adjusted R-squared: 0.8052 F-statistic: 40.28 on 2 and 17 DF, p-value: 3.551e-07 Z´ıskali jsme kvadratickou regresi s = −21.9668 + 22.2505t − 0.0421t2. Jej´ı graf je zn´azornˇen na obr´azku 5 vpravo a prakticky se pˇrekr´ yv´a s grafem regresn´ı pˇr´ımky. To je zˇrejm´e i z porovn´an´ı parametr˚ u. Je pˇrekvapuj´ıc´ı, ˇze ˇz´adn´ y z parametr˚ u kvadratick´e regresn´ı funkce nen´ı signifikantn´ı. Pro kontrolu provedeme opˇet Durbin˚ uv-Watson˚ uv test s v´ ysledkem lag Autocorrelation D-W Statistic p-value 1 0.3043 1.272 0.026 Alternative hypothesis: rho != 0 Test vyˇsel signifikantnˇe, coˇz se rovnˇeˇz dalo ˇcekat vzhledem k tomu, ˇze d´ıky shodˇe regresn´ı pˇr´ımky a regresn´ı kvadratick´e funkce jsou rezidua v obou pˇr´ıpadech prakticky stejn´a. Nyn´ı vezmeme v u ´ vahu, ˇze za nulov´ y ˇcas mus´ı b´ yt dr´aha voln´eho p´adu tak´e rovna nule. Proto zn´azorn´ıme Galileova data i se zd˚ uraznˇen´ ym bodem (0,0), kter´ ym mus´ı kaˇzd´a regresn´ı funkce proch´azet (viz obr´azek 5 vpravo a obr´azek 6 vlevo). Nejdˇr´ıv zase proloˇz´ıme pˇr´ımku a m´ ame t
Estimate Std. Error t value Pr(>|t|) 13.695 0.713 19.21 6.6e-14 ***
Residual standard error: 8.065 on 19 degrees of freedom Multiple R-Squared: 0.9511, Adjusted R-squared: 0.9485 F-statistic: 369.2 on 1 and 19 DF, p-value: 6.594e-14 11
Rovnice t´eto regresn´ı pˇr´ımky je s = 13.6949t. Pak proloˇz´ıme regresn´ı kvadratickou funkci bez absolutn´ıho ˇclenu Estimate Std. Error t value Pr(>|t|) 4.204 2.972 1.414 0.174 3.482 1.069 3.256 0.004 **
t I(t^2)
Ta m´a tedy rovnici s = 4.204t + 3.482t2 . Koeficient u line´arn´ıho ˇclenu nen´ı signifikantn´ı. Kromˇe toho dnes jiˇz v´ıme, ˇze plat´ı s=
g 2 t , 2
kde g = 9.81 m/sec2 je zemsk´e zrychlen´ı. Oba d˚ uvody vedou k proloˇzen´ı kvadratick´e regrese bez absolutn´ıho i bez line´arn´ıho ˇclenu. T´ım z´ısk´ame Estimate Std. Error t value 4.966 0.215 23.15
I(t^2)
Pr(>|t|) 2.19e-15 ***
Residual standard error: 6.745 on 19 degrees of freedom Multiple R-Squared: 0.9658, Adjusted R-squared: 0.964 F-statistic: 536.1 on 1 and 19 DF, p-value: 2.191e-15
30
40
50
primka parabola par. bez lin. clenu
0
10
20
h
30 0
10
20
h
40
50
T´ım jsme dostali rovnici s = 4.9656t2. Tu m˚ uˇzeme porovnat s teoretickou z´avislost´ı, kter´a zn´ı s = 4.905t2. Vˇsechny tˇri posledn´ı regresn´ı funkce jsou uvedeny na obr´azku 6 vpravo. Interval spolehlivosti s koeficientem spolehlivosti 0.95 pro koeficient u kvadratick´eho ˇclenu je [4.516692; 5.414459]. To znamen´a, ˇze interval spolehlivosti pro g je [9.033; 10.829].
0
1
2
3
4
0
t
1
2
3
4
t
Obr. 6. Galileova data (vlevo) a regrese proch´azej´ıc´ı poˇc´atkem (vpravo).
12
Ve skuteˇcnosti vˇsak lze oˇcek´avat, ˇze dr´aha s byla stanovena pˇresnˇe, zat´ımco ˇcas t byl stanoven s chybou. Proto by byla na m´ıstˇe z´avislost q √ t = g2 s. Pokud proloˇz´ıme tuto regresn´ı funkci, dostaneme
Coefficients: Estimate Std. Error t value Pr(>|t|) sq 0.441755 0.009832 44.93 <2e-16 *** Residual standard error: 0.2507 on 19 degrees of freedom Multiple R-Squared: 0.9907, Adjusted R-squared: 0.9902 F-statistic: 2019 on 1 and 19 DF, p-value: < 2.2e-16
t
0
1
2
3
4
Regresn´ı funkce je zn´azornˇena na obr´azku 7. Interval spolehlivosti pro √ koeficient pˇ r i s je [0.4211758, 0.4623348]. Skuteˇcn´a hodnota tohoto koeficip p entu je 2/g = 0.4515236. Z toho, ˇze zn´ame interval spolehlivosti pro 2/g, dostaneme, ˇze interval spolehlivosti pro g je [9.357; 11.275].
0
10
20
30
40
50
h
Obr. 7. Regrese ˇcasu na vzd´alenosti.
Podˇ ekov´ an´ı: Pˇr´ıspˇevek vznikl za pomoci grantu MSM 0021620839. Reference [1] Belle van G. (2002) Statistical Rules of Thumb. Wiley, New York. [2] Everitt B. (2005) An R and S-PLUS Companion to Multivariate Analysis. Springer-Verlag, London. [3] Chambers J. M., Cleveland W. S., Kleiner B. and Tukey P. A. (1983) Graphical Methods for Data Analysing. Belmont, CA, Wadsworth.
13
ˇ ´IMAC´I ZKOUSKY ˇ PRIJ NA MFF UK Z MATEMATIKY V ROCE 2007 ENTRY EXAMS FROM MATHEMATICS AT MFF UK IN 2007 Jiˇ r´ı Andˇ el, Jarom´ır Antoch Adresa: MFF UK, KPMS, Praha E-mail : {jiri.andel,jaromir.antoch}@mff.cuni.cz Abstract This contribution analyze the results of entry exams from mathematics at the faculty of mathematics and physics of the Charles University of Prague.
1.
Zad´ an´ı
Pˇri pˇrij´ımac´ıch zkouˇsk´ ach z matematiky na MFF dne 11. ˇcervna 2007 byla uchazeˇc˚ um zad´ ana p´ısemn´ a pr´ ace s n´ asleduj´ıc´ımi u ´lohami. Jejich ˇreˇsen´ı uv´ ad´ıme v odstavci 3. 1. Urˇcete vˇsechny hodnoty re´ aln´eho parametru p, pro kter´ y m´ a soustava rovnic 7x + 3y = p2
a
5x + 2y = 20
ˇreˇsen´ı x > 0, y > 0. 2. V oboru re´ aln´ ych ˇc´ısel R ˇreˇste rovnici 2·
(10 bod˚ u)
sin x + sin 2x sin x =3· . cos x + cos 2x cos x
(10 bod˚ u) 3. Urˇcete prvn´ı ˇclen a kvocient geometrick´e posloupnosti, je-li souˇcet prvn´ıch tˇr´ı ˇclen˚ u roven 62 a souˇcet dekadick´ ych logaritm˚ u tˇechto tˇr´ı ˇclen˚ u je roven 3. (15 bod˚ u) 4. Napiˇste rovnice teˇcen paraboly (y − 3)2 = 16(x + 3), kter´e proch´ azej´ı bodem [−3, −1].
(15 bod˚ u)
Upozornˇ en´ı: U kaˇzd´e u ´lohy je nutno uv´est cel´ y postup ˇreˇsen´ı, nestaˇc´ı napsat pouze v´ ysledky1 . Uveden´ y poˇcet bod˚ u je maxim´ aln´ı poˇcet, kter´ y m˚ uˇzete za danou u ´lohu z´ıskat. 1 Poznamenejme, ˇ ze tento poˇ zadavek silnˇ e omezuje moˇ znost pouˇ zit´ı programu Mathematica, kter´ e je diskutov´ ano v odstavci 4.
14
2.
Hodnocen´ı v´ ysledk˚ u
Celkem bylo odevzd´ano 658 p´ısemek. Pro struˇcnost budeme prvn´ı u ´ lohu oznaˇcovat jako ex1, druhou ex2 atd.
2.1.
Hodnocen´ı jednotliv´ ych u ´loh
ˇ Cetnostn´ ı histogramy a krabicov´e grafy v´ ysledk˚ u jednotliv´ ych u ´ loh jsou na obr´azku 1. V´ ysledek m˚ uˇze ˇcten´aˇri pˇripadat ponˇekud zvl´aˇstn´ı, zvl´aˇstˇe pak ve srovn´an´ı s obr´azkem 2, letit´a zkuˇsenost prvn´ıho z autor˚ u vˇsak ˇr´ık´a, ˇze s podobn´ ymi v´ ysledky se setkal prakticky kaˇzdoroˇcnˇe. ex 1
ex 2
300
300
200
200
100
100
0
1
2
3
4
5 6 7 pocet bodu ex 3
8
9
0
10
300
300
200
200
100
100
0
5
10 pocet bodu
1
2
0
15
3
4
5
5 6 7 pocet bodu ex 4
8
9
10 pocet bodu
10
15
15 10 5 0 ex1
ex2
ex3
ex4
ˇ Obr. 1. Cetnostn´ ı histogramy a krabicov´e grafy u ´ loh ex1 – ex4. ex1 Min. : 0.00 1st Qu.: 5.00 Median : 8.00 Mean : 6.99 3rd Qu.:10.00 Max. :10.00
ex2 Min. : 0.00 1st Qu.: 1.00 Median : 3.00 Mean : 3.52 3rd Qu.: 6.00 Max. :10.00
ex3 Min. : 0.00 1st Qu.: 3.00 Median :11.00 Mean : 9.32 3rd Qu.:15.00 Max. :15.00
15
ex4 Min. : 0.00 1st Qu.: 1.00 Median : 4.00 Mean : 4.81 3rd Qu.: 7.00 Max. :15.00
u ´ loha pr˚ umˇer smˇer. odchylka
ex1 6.99 3.25
ex2 3.52 2.99
ex3 9.32 5.87
ex4 4.81 4.65
Tab. 1. Popisn´e statistick´e charakteristiky jednotliv´ ych u ´ loh.
2.2.
Hodnocen´ı celkov´ eho v´ ysledku
Celkov´ y v´ ysledek pˇrij´ımac´ı zkouˇsky z matematiky je d´an souˇctem bod˚ u za vˇsechny ˇctyˇri u ´ lohy. Popisn´e statistick´e charakteristiky tohoto souˇctu jsou Min. 1st Qu. 0.00 15.00
Median 25.00
Mean 24.64
St. dev. 12.34 celkovy pocet bodu
100 80 60 40 20 0 0
10
20 30 celkovy pocet bodu
40
3rd Qu. 34.75
Max. 50.00
50
25
0
50
ˇ Obr. 2. Cetnostn´ ı histogram a krabicov´ y graf celkov´eho v´ ysledku z matematiky. Pr˚ umˇery a smˇerodatn´e odchylky v´ ysledk˚ u uv´adˇen´e s pˇresnost´ı na jedno desetinn´e m´ısto v jednotliv´ ych posluch´arn´ ach jsou uvedeny v tabulce 2. Krabicov´ y graf celkov´eho v´ ysledku v z´avislosti na um´ıstˇen´ı uchazeˇc˚ u v posluch´arn´ach je na obr´azku 3. Posluch´arny jsou seˇrazeny podle z´ajmu student˚ u o urˇcit´ y typ studia, jejich poˇrad´ı je stejn´e jak na obr´ azku 3 tak v tabulce 2. Zkratky obor˚ u uveden´e v tabulce 2 jsou vysvˇetleny v tabulce 3. 50
40
30
20
10
0 VG6 MIP6 CH1 CH2
S4
S1
S3
S5
S8 FOT ZOO
F1
M1
M2
M4
M5
M6
F2
Obr. 3. Krabicov´ y graf celkov´ ych v´ ysledk˚ u v z´avislosti na posluch´arn´ach. 16
posluch´arna VG6 MIP6 Ch1 Ch2 S4 S1 S3 S5 S8 FOT ZOO F1 M1 M2 M4 M5 M6 F2 Celkem
pozv´ani 84 33 97 27 44 25 70 72 31 83 72 90 110 25 27 13 17 61 981
pˇriˇsli 61 26 69 16 22 19 50 55 19 63 49 36 83 10 17 7 14 42 658
pr˚ umˇer 26.7 30.0 27.9 28.2 25.1 27.9 19.8 23.6 19.1 20.9 21.2 19.1 26.8 25.6 18.6 32.3 21.2 31.8 24.6
sd 12.71 11.71 11.04 13.14 10.84 10.81 12.40 12.59 9.73 11.45 13.10 12.52 12.37 9.97 12.34 8.96 12.24 8.94 12.34
obor BM - P BM - P BM - P BM - P BM - K BI - P BI - P BI - P BI - P BI - P BI - P BI - K BF - P BF - K MIU, FMU2 MDU FMU duplicity
Tab. 2. Pˇrehled posluch´aren. Zkratka BF BI BM FMU FMU2 MDU MIU duplicity P K
Obor bakal´aˇri fyziky bakal´aˇri informatiky bakal´aˇri matematiky uˇcitelstv´ı fyzika — matematika ˇ uˇcitelstv´ı fyzika — matematika pro 2. stupeˇ n ZS uˇcitelstv´ı matematika — deskriptivn´ı geometrie uˇcitelstv´ı matematika — informatika uchazeˇci, kteˇr´ı podali pˇrihl´ aˇsku na v´ıc program˚ u ˇci obor˚ u jen prezenˇcn´ı studium jen kombinovan´e studium
Tab. 3. Zkratky studijn´ıch program˚ u a studijn´ıch obor˚ u.
17
Pˇr´ıpadnou z´avislost v´ ysledku na zaˇrazen´ı do posluch´aren posoud´ıme pomoc´ı anal´ yzy rozptylu. V´ ysledkem je tabulka room Residuals
Df Sum Sq Mean Sq F value Pr(>F) 17 10242 602 4.2937 2.223e-08 *** 640 89799 140
z n´ıˇz vypl´ yv´a, ˇze rozd´ıly mezi posluch´arnami jsou vysoce signifikantn´ı. Pˇritom Levene˚ uv test na shodnost rozptyl˚ u d´av´ a p-hodnotu 0.31, takˇze shodnost rozptyl˚ u nezam´ıt´ame. Pomoc´ı Tukeyovy metody se zjist´ı, ˇze na obvykl´e pˇetiprocentn´ı hladinˇe se signifikantnˇe liˇs´ı F2 od M4, S8, F1, S3, FOT, ZOO, a ˇze se kaˇzd´a z posluch´aren MIP6 a Ch1 signifikatnˇe liˇs´ı od F1 i od S3. Korelaˇcn´ı matice mezi jednotliv´ ymi u ´ lohami je ex1 ex2 ex3 ex4
ex1 1.000 0.388 0.433 0.328
ex2 0.388 1.000 0.431 0.310
ex3 0.433 0.431 1.000 0.349
ex4 0.328 0.310 0.349 1.000
Z n´ı vypl´ yv´a, ˇze v´ ysledky jednotliv´ ych u ´ loh jsou kladnˇe korelov´any, ale tato korelace nen´ı pˇr´ıliˇs velk´a. Anal´ yza hlavn´ıch komponent zaloˇzen´a na korelaˇcn´ı matici d´av´a tyto v´ ysledky Importance of components: Standard deviation Proportion of Variance Cumulative Proportion Loadings: Comp.1 ex1 0.510 ex2 0.504 ex3 0.530 ex4 0.452
Comp.2 -0.217 -0.368 -0.195 0.883
Comp.1 1.457 0.531 0.531
Comp.3 0.732 -0.674
Comp.2 0.845 0.178 0.709
Comp.3 0.782 0.153 0.862
Comp.4 0.743 0.138 1.000
Comp.4 -0.397 -0.395 0.825
Prvn´ı hlavn´ı komponenta odpov´ıd´a souˇctu bod˚ u za jednotliv´e u ´ lohy. Druh´a pak odpov´ıd´a rozd´ılu bod˚ u za ˇctvrtou u ´ lohu a prvn´ıch tˇr´ı u ´ loh. Jasnou interpretaci m´a i tˇret´ı hlavn´ı komponenta, kter´a porovn´av´a pomoc´ı rozd´ılu bod˚ u prvn´ı a druhou u ´ lohu.
18
Anal´ yza hlavn´ıch komponent aplikovan´a na kovarianˇcn´ı matici (tedy na nestandardizovan´a data) d´av´a Importance of components: Comp.1 Standard deviation 6.693 Proportion of Variance 0.594 Cumulative Proportion 0.594 Loadings: Comp.1 ex1 -0.287 ex2 -0.254 ex3 -0.812 ex4 -0.441
Comp.2
-0.496 0.867
Comp.3 0.785 0.488 -0.304 -0.231
Comp.2 4.070 0.220 0.813
Comp.3 2.869 0.109 0.923
Comp.4 2.417 0.077 1.000
Comp.4 -0.547 0.835
Zde m˚ uˇzeme prvn´ı hlavn´ı komponentu vyn´asobit faktorem −1. Vid´ıme, ˇze nejvˇetˇs´ı v´ahu m´a tˇret´ı u ´ loha, dalˇs´ı nejvˇetˇs´ı v´ahu m´a ˇctvrt´a u ´ loha.
3.
ˇ sen´ı Reˇ 1. Jelikoˇz x = 60 − 2p2 , y = 5p2 − 140 maj´ı b´ yt kladn´a, proto 28 < p2 < 30. Vyhovuj´ı pr´avˇe vˇsechny hodnoty p, pro nˇeˇz plat´ı √ √ √ √ √ √ 2 7 < |p| < 30, tj. p ∈ (− 30, − 28) ∪ ( 28, 30). 2. Rovnici uprav´ıme na tvar 2 sin x cos x(1 + 2 cos x) = 3 sin x(cos x + 2 cos2 x − 1), odkud sin x = 0 nebo 2 cos2 x + cos x − 3 = 0. 1 cos x = ր ց − 3 nevyhovuje 2
x ∈ lπ, l ∈ Z
x = 2kπ, k ∈ Z, avˇsak pro lich´e l je cos lπ = −1, cos 2lπ = 1, jmenovatel prvn´ıho zlomku by se rovnal nule. Rovnici vyhovuj´ı pr´avˇe jen hodnoty x = 2kπ, k cel´e ˇc´ıslo. 19
3. M´a platit a1 (1 + q + q 2 ) = 62 a
3 log a1 + 3 log q = 3,
odkud a1 · q = 10.
Vylouˇcen´ım a1 dostaneme pro q rovnici 5q 2 − 26q + 5 = 0 s koˇreny ´ 5, 15 , k nim dostaneme a1 = 2, a1 = 50. Uloha m´a pr´avˇe dvˇe ˇreˇsen´ı: {a1 = 2, q = 5} a {a1 = 50, q = 15 }. 4. Jednou teˇcnou je pˇr´ımka x = −3, rovnici druh´e teˇcny hled´ame v smˇernicov´em tvaru y = k(x+3)−1. Dosazen´ım dostaneme pro x kvadratickou rovnici (k = 0 nevyhovuje) k 2 x2 + 2(3k 2 − 4k − 8)x + 9k 2 − 24k − 32 = 0. Jej´ı diskriminant se rovn´a nule pouze pro k = −1, takˇze druh´a teˇcna m´a rovnici x + y + 4 = 0.
4.
M˚ uˇ ze student˚ um pomoci Mathematica“? ”
Studenti si ke zkouˇsce mohli pˇrin´est jak´ekoliv pom˚ ucky, vˇcetnˇe pˇrenosn´eho poˇc´ıtaˇce a libovoln´eho programov´eho vybaven´ı. Pˇredpokl´adejme, ˇze mˇeli nainstalov´an program Mathematica a ˇze s n´ım um´ı alespoˇ n trochu zach´azet; nepˇredpokl´ad´ame nicm´enˇe ˇz´adnou pˇrehnanou znalost“ tohoto programu. ” Pod´ıvejme se, zda a jak n´am takov´ yto program m˚ uˇze pomoci pˇren´est se pˇres u ´ skal´ı pˇrij´ımac´ıho p´ısemky. Pˇ r´ıklad 1. Zde se zd´a b´ yt pˇrirozen´e pouˇz´ıt pˇr´ıkaz Solve urˇcen´ y pro ˇreˇsen´ı syst´em˚ u rovnic. Nap´ıˇseme-li Solve[{7 x + 3 y == p^2, 5 x + 2 y == 20}, {x, y}] dostaneme jako v´ ysledek x → −2 p2 − 30 , y → 5 p2 − 28
To sice pˇr´ıklad 1 plnˇe neˇreˇs´ı, m˚ uˇze n´am ale usnadnit hled´an´ı definitivn´ıho ˇreˇsen´ı. Pokud si student uvˇedom´ı, ˇze m´ısto Solve m˚ uˇze pouˇz´ıt pˇr´ıkaz Reduce, tj. napsat napˇr´ıklad Reduce[{7x+3y == p^2 && 5x+2y == 20 && x>0 && y>0}, {p,x,y}]
20
jako v´ ysledek dostane √ √ − 30 < ℜ(p) < −2 7 ∧ ℑ(p) = 0 ∧ x = 60 − 2ℜ(p)2 ∨
√ √ 2 7 < ℜ(p) < 30 ∧ ℑ(p) = 0 ∧ x = 60 − 2ℜ(p)2
!
∧y =
1 (20 − 5x) 2
odkud jiˇz hledan´e ˇreˇsen´ı vyˇc´ıst“ lze. ” Pˇ r´ıklad 2. Pouˇzijeme-li opˇet pˇrirozen´ y“ pˇr´ıkaz pro ˇreˇsen´ı rovnic ” Solve[2 (Sin[x] + Sin[2 x])/(Cos[x] + Cos[2 x]) == 3 Sin[x]/Cos[x], x] dostaneme obratem ˇreˇsen´ı 3 3 {x → 0}, x → − cos−1 − , x → cos−1 − 2 2 a hl´aˇsku Solve:Inverse functions are being used by Solve, so some solutions may not be found; use Reduce for complete solution information. More ... Zvˇedav´ y student jistˇe n´apovˇedu zkus´ı. Nap´ıˇse-li Reduce[2 (Sin[x] + Sin[2 x])/(Cos[x] + Cos[2 x]) == 3 Sin[x]/Cos[x], x] dostane c1 ∈ Z ∧
x = 2πc1 ∨ x = 2πc1 − 2i tanh−1 −1
∨ x = 2πc1 + 2i tanh
√ 5
!
√ 5
odkud jiˇz hledan´e ˇreˇsen´ı jistˇe vyˇc´ıst“ lze. ” Nen´ı n´am nicm´enˇe jasn´e, kolik student˚ u si uvˇedom´ı, ˇze ArcCos[-3/2] sice vr´at´ı ArcCos[-3/2], ale ˇze na druh´e stranˇe N[ArcCos[-3/2]] vr´at´ı 3.14159-0.962424 i. 21
Pˇ r´ıklad 3. Pouˇzijeme-li opˇet pˇrirozen´ y pˇr´ıkaz pro ˇreˇsen´ı rovnic Solve[{a + a q + a q^2 == 62, Log[10, a] + Log[10, a q] + Log[10, a q^2] == 3}, {a, q}]] dostaneme jako v´ ysledek (
ff n o 1 a → 2, q → 5 , a → 50, q → , 5 s ( √ √ √ !3/2 155i 3 181 1271i 3 25 801 1271i 3 1 “ 2077 801 + − − − − − − a→ 31 2 2 8 50 50 4 50 50 v s √ !” √ √ ) u 651 u 801 1271i 3 41 31i 3 1 801 1271i 3 − − it3 − − ,q → − + + − , 8 50 50 20 20 2 50 50 s ( √ √ √ !3/2 155i 3 181 1271i 3 25 801 1271i 3 1 “ 2077 801 a→ + + − − + − − 31 2 2 8 50 50 4 50 50 v s √ !” √ √ ) u 651 u 1271i 3 41 31i 3 1 1271i 3 801 801 + it3 − − ,q → − + − − − , 8 50 50 20 20 2 50 50 s ( √ √ √ !3/2 1 “ 2077 155i 3 181 801 1271i 3 25 801 1271i 3 a→ − + − + + − + 31 2 2 8 50 50 4 50 50 v s u √ !” √ √ ) 801 801 651 u 1271i 3 41 31i 3 1 1271i 3 − − it3 − + ,q → − − − + , 8 50 50 20 20 2 50 50 s ( √ √ √ !3/2 801 1 “ 2077 155i 3 181 1271i 3 25 801 1271i 3 a→ − − − + − − + 31 2 2 8 50 50 4 50 50 v s √ !” √ √ )) u 651 u 801 1271i 3 41 31i 3 1 801 1271i 3 + it3 − + ,q → − − + − + 8 50 50 20 20 2 50 50
Nalezen´ı spr´avn´eho ˇreˇsen´ı nech´ame na ˇcten´aˇri. Pˇ r´ıklad 4. Zde n´am Mathematica asi ˇreˇsen´ı jen tak sama nenab´ıdne. V kaˇzd´em pˇr´ıpadˇe n´am vˇsak m˚ uˇze pomoci alespoˇ n zkontrolovat naˇse ruˇcn´ı“ v´ ypoˇc” ty a malovat za n´as grafy. Dobˇre n´am jiˇz zn´am´ y pˇr´ıkaz Solve zkontroluje, zda um´ıme vyˇreˇsit rovnici paraboly. Skuteˇcnˇe, nap´ıˇseme-li Solve[(y - 3)^2 == 16(x + 3), y] dostaneme jako v´ ysledek √ √ y →3−4 x+3 , y → 4 x+3+3 22
Nyn´ı jiˇz nezb´ yv´a nic jin´eho, neˇz si pˇredchoz´ı ˇreˇsen´ı namalovat a vz´ıt rozum do hrsti. Zat´ımco teˇcna x = −3 n´as asi napadne ihned, k nalezen´ı druh´e teˇcny uˇz pˇreci jenom potˇrebujeme v´ıce. Nakonec si ˇreˇsen´ı namalujeme, napˇr´ıklad pomoc´ı res = Solve[(y - 3)^2 == 16(x + 3), y]; res = {res, {y -> -x - 4}}; o1 = Plot[Evaluate[y /. res], {x, -3, 3}, PlotStyle -> {{Thickness[0.01], GrayLevel[0.75]}}]; o2 = Graphics[{Thickness[0.01], GrayLevel[0.75], Line[{{-3, -7}, {-3, 13}}]}]; Show[o1, o2]; Dostaneme tak to, co oˇcek´av´ame, totiˇz
10
5 -2 -3
-1
1
2
3
-5
5.
Post scriptum
Pro jistou dobu se jedn´a o posledn´ı pˇrij´ımac´ı zkouˇsky na MFF UK, nebot’ Akademick´ y sen´at MFF UK na n´avrh veden´ı fakulty schv´alil, ˇze v roce 2008 se odborn´e pˇrij´ımac´ı zkouˇsky na bakal´aˇrsk´e studium konat nebudou. Bl´ıˇze viz http://www.mff.cuni.cz/studium/uchazec/prijriz.htm
23
´ ´I BIMODALITY NA ZAKLAD ´ ˇ POSUZOVAN E HISTOGRAMU JUDGEMENT ON BIMODALITY BASED ON HISTOGRAM ˇarka Doˇ S´ sl´ a Adresa: MFF UK, KPMS, Praha E-mail :
[email protected] Abstract In this paper we try to respond the following question, i.e., Does two-modal histogram really indicate two modal distribution? The response is, according to the expectation, negative. We will show the reasons for and several alternative approaches enabling to decide more reliably on the number of modes.
´ Uvod Normovan´ y histogram je zˇrejmˇe nejzn´amˇejˇs´ım odhadem hustoty n´ahodn´eho v´ ybˇeru. Jelikoˇz je jeho konstrukce velmi jednoduch´a a intuitivn´ı, patˇr´ı mezi obl´ıben´e n´astroje statistick´e anal´ yzy dat. Jeho grafick´e zn´azornˇen´ı n´am pom´ah´a z´ıskat lepˇs´ı pˇredstavu o chov´an´ı zkouman´eho rozdˇelen´ı. Avˇsak vˇzdy bychom mˇeli m´ıt na pamˇeti, ˇze vlastnosti a tvar histogramu mohou b´ yt interpretov´any a pˇreneseny na jeho teoretick´ y protˇejˇsek“ pouze pˇrimˇeˇrenˇe, ” s pˇrihl´ednut´ım k moˇzn´ ym n´ahodn´ ym odchylk´am. Bimod´aln´ı rozdˇelen´ı ve vˇetˇsinˇe pˇr´ıpad˚ u vznik´a jako smˇes dvou jednovrcholov´ ych rozdˇelen´ı. V situaci, kdy pracujeme s daty poch´azej´ıc´ımi ze smˇesi dvou rozdˇelen´ı, m˚ uˇzeme m´ıt tendenci bimodalitu jist´ ym zp˚ usobem oˇcek´avat. Pokud nav´ıc histogram vykazuje dvˇe maxima, zd´a se b´ yt naˇse podezˇren´ı potvrzeno. V n´asleduj´ıc´ım textu se pod´ıv´ame na to, jak je to s posuzov´an´ım bimodality rozdˇelen´ı na z´akladˇe histogramu. Indikuje-li histogram dva vrcholy, m˚ uˇze b´ yt pro n´as tento jev dostateˇcn´ ym d˚ ukazem“, ˇze je odpov´ıdaj´ıc´ı hus” tota bimod´aln´ı? Zˇrejmˇe nikoliv. Uk´aˇzeme, proˇc m˚ uˇze b´ yt takov´ y postup velmi zav´adˇej´ıc´ı. Nakonec pop´ıˇseme alternativn´ı moˇznost, kterou lze vyuˇz´ıt, chceme-li rozhodnout o poˇctu vrchol˚ u zkouman´eho rozdˇelen´ı.
24
1.
Smˇ esi dvou rozdˇ elen´ı a jejich bimodalita
4
0.4 −4
0 2 (b)
4
6
0.0
0 2 (a)
0.2
0.4 0.2 −4
0.0
0.0
0.2
0.4
Jiˇz v u ´ vodu jsme pouˇzili v´ yraz smˇes“. I kdyˇz je tento pojem zˇrejmˇe vˇseobecnˇe ” zn´am, pˇripomeˇ nme pro pˇresnost, ˇze smˇes´ı dvou rozdˇelen´ı s hustotami f1 a f2 rozum´ıme rozdˇelen´ı s hustotou f , pro kterou plat´ı f = pf1 + qf2 , kde p, q ∈ [0, 1], p + q = 1. V takov´em pˇr´ıpadˇe je f smˇes´ı sloˇzek (komponent) f1 a f2 a parametry p, q jsou v´ahy tˇechto sloˇzek.
−4
0 2 4 6 (c)
Obr. 1. Smˇesi dvou hustot f1 a f2 norm´aln´ıch rozdˇelen´ı N(0, 1) a N(µ, 1) s v´ahami p = q = 21 pro (a) µ = 1, (b) µ = 2 a (c) µ = 3. Pˇr´ıklady smˇes´ı dvou norm´aln´ıch rozdˇelen´ı jsou graficky zn´azornˇeny na obr´azku 1. Pro tento jednoduch´ y pˇr´ıpad smˇes´ı N(0, 1) a N(µ, 1) s v´ahami uˇzeme vidˇet, ˇze tvar v´ ysledn´e hustoty evidentnˇe z´ avis´ı na volbˇe p = q = 12 m˚ parametru µ, tj. na vzd´alenosti vrchol˚ u sloˇzek. Leˇz´ı-li tyto vrcholy velmi bl´ızko sebe, je hustota smˇesi unimod´aln´ı. Postupn´ ym vzdalov´an´ım komponent, tj. zvˇetˇsov´an´ım µ, se hustota f pomalu zploˇst’uje“, aˇz po pˇrekroˇcen´ı ” urˇcit´e meze vznikne rozdˇelen´ı bimod´aln´ı. Toto naˇse pozorov´an´ı lze zobecnit a jednoduˇse shrnout, ˇze smˇes dvou unimod´aln´ıch hustot je bimod´aln´ı pouze v pˇr´ıpadˇe, ˇze jsou vrcholy jej´ıch sloˇzek dostateˇcnˇe“ vzd´aleny. Pˇresnˇe zfor” mulovan´e podm´ınky pro unimodalitu je moˇzn´e nal´ezt napˇr. v [3] ˇci [4]. Jak tedy v praxi rozhodnout o poˇctu vrchol˚ u rozdˇelen´ı dan´eho n´ahodn´eho v´ ybˇeru? Pˇredpokl´adejme, ˇze v´ıme, ˇze naˇse data poch´azej´ı z nˇejak´e smˇesi dvou rozdˇelen´ı. V situaci, ˇze zn´ame v´ahy a parametry jej´ıch sloˇzek nebo jejich odhady, m˚ uˇzeme o unimodalitˇe, resp. bimodalitˇe, rozhodnout na z´akladˇe citovan´ ych teoretick´ ych krit´eri´ı. Bohuˇzel, vˇetˇsinou vˇsak m´ame k dispozici pouze data a parametry komponent nejsme schopni odhadnout. Zm´ınˇen´a krit´eria pak nelze aplikovat, a tak pˇrich´az´ı na ˇradu histogram. . .
2.
Histogramy a posuzov´ an´ı jejich bimodality
Je vˇseobecnˇe zn´amo, ˇze tvar histogramu z´avis´ı na parametrech, z nichˇz nˇekter´e sami, ˇcasto sp´ıˇse subjektivnˇe, vol´ıme. Poˇcet tˇr´ıd ˇci jejich ˇs´ıˇrka ovlivˇ nuj´ı
25
0
0
5
10
20
15
hladkost a v´ yskyt pˇr´ıpadn´ ych vrchol˚ u. Kromˇe toho, ˇc´ım v´ıce pozorov´an´ı m´ame k dispozici, t´ım je histogram hladˇs´ı a pˇresnˇejˇs´ı“. ” Vˇedomi si vˇsech tˇechto skuteˇcnost´ı, vykresl´ıme histogram naˇseho v´ ybˇeru. Odhl´ednˇeme nyn´ı od moˇznosti mˇenit poˇcet jeho tˇr´ıd a pˇredpokl´adejme, ˇze jsme pouˇzili optim´aln´ı volbu dle nˇekter´eho ze zn´am´ ych krit´eri´ı (napˇr. Sturgesova). Na z´akladˇe vytvoˇren´eho histogramu se snaˇz´ıme z´ıskat pˇredstavu o tvaru skuteˇcn´eho rozdˇelen´ı naˇsich dat: Mohlo by se jednat o norm´aln´ı ˇci jin´e unimod´aln´ı rozdˇelen´ı? Nebo bude naopak hustota sp´ıˇse dvouvrcholov´a?
−2
−1
0
1
2
−2
0
(a)
1
2
3
(b)
Obr. 2. Histogramy n´ahodn´ ych v´ ybˇer˚ u simulovan´ ych z rozdˇelen´ı N(0, 1) o rozsahu 100 pozorov´an´ı s nastaven´ım (a) set.seed(89) a (b) set.seed(59). Na chvilku jeˇstˇe poˇckejme se sv´ ym rozhodnut´ım a pod´ıvejme se na n´asleduj´ıc´ı moˇznou situaci. Na obr´azku 2(a) je zn´azornˇen histogram v´ ybˇeru simulovan´eho z norm´aln´ıho rozdˇelen´ı N(0, 1) o rozsahu 100 pozorov´an´ı1. Tento histogram m´a dvˇe lok´aln´ı maxima, tj. dva vrcholy. Vyvodili bychom z tohoto ˇ bychom jej jevu, ˇze zkouman´ y v´ ybˇer poch´az´ı z bimod´aln´ıho rozdˇelen´ı? Ci sp´ıˇse pˇripsali jak´esi nepˇresnosti“ odhadu? Nebo bychom se soudit neodv´a” ˇzili? Odpovˇed’ asi nen´ı jednoznaˇcn´a. V tomto konkr´etn´ım pˇr´ıkladˇe jsme vˇedˇeli, ˇze jde o v´ ybˇer generovan´ y z norm´aln´ıho rozdˇelen´ı, a proto bychom se zˇrejmˇe zdrˇzeli un´ahlen´ ych soud˚ u. Co ale v pˇr´ıpadˇe naˇsich re´aln´ ych dat? Probl´emem je, ˇze v situaci, kdy v´ıme, ˇze data poch´azej´ı ze smˇesi dvou jednovrcholov´ ych rozdˇelen´ı, bimodalitu jaksi oˇcek´av´ame. A tak se na z´akladˇe dvouvrcholov´eho histogramu m˚ uˇzeme snadno nechat pˇresvˇedˇcit o tom, ˇze je zkouman´e rozdˇelen´ı bimod´aln´ı, a uˇcinit tak moˇzn´a chybn´ y z´avˇer. Posuzov´an´ı tvaru histogramu je evidentnˇe z´aleˇzitost subjektivn´ıho r´azu. Nav´ıc, ne kaˇzd´e jeho lok´aln´ı maximum vn´ım´ame jako potenci´aln´ı vrchol“ ” 1 Simulace
provedena v programu R s nastaven´ım set.seed(89).
26
hustoty. Velmi ˇcasto jsou ˇcetnosti nˇekolika prostˇredn´ıch tˇr´ıd histogramu v´ yraznˇe vyˇsˇs´ı neˇz ˇcetnosti zb´ yvaj´ıc´ıch tˇr´ıd. Pˇri zkoum´an´ı modality si pak vˇs´ım´ame pouze vrchol˚ u indikovan´ ych v tˇechto prostˇredn´ıch tˇr´ıd´ach a pˇr´ıpadn´a dalˇs´ı lok´aln´ı maxima pomineme. V pˇr´ıpadˇe histogramu na obr´ azku 2(b) budeme zˇrejmˇe br´at v u ´ vahu pouze vrcholy, kter´e indikuje na intervalech (−1, −0.5] a (0, 0.5] a lok´aln´ı maximum ve tˇr´ıdˇe (−2, −1.5] budeme ch´apat sp´ıˇse jako n´ahodnou odchylku“. ” Proto se nad´ale omez´ıme pouze na studov´an´ı nˇekolika prostˇredn´ıch tˇr´ıd histogram˚ u a budeme sledovat maxima indikovan´a pouze zde. Ostatn´ı tˇr´ıdy nebudeme br´at pˇri posuzov´an´ı bimodality v u ´ vahu.
3.
Pˇ r´ıpad rozdˇ elen´ı s tup´ ym“ vrcholem ”
U nˇekter´ ych smˇes´ı nejsou vrcholy jejich sloˇzek vzd´aleny natolik, aby byla v´ ysledn´a hustota dvouvrcholov´a. M˚ uˇze tak nastat pˇr´ıpad, kdy je sice rozdˇelen´ı unimod´aln´ı, ale tento jeho jedin´ y vrchol je velmi neostr´ y“. Tak je tomu ” napˇr´ıklad u smˇesi (b) na obr´azku 1, jej´ıˇz hustota je na jak´emsi okol´ı sv´eho vrcholu t´emˇeˇr konstantn´ı. V n´asleduj´ıc´ım textu se zamˇeˇr´ıme na takov´a unimod´aln´ı rozdˇelen´ı s tup´ ym“ vrcholem a pod´ıv´ame se na odhad pravdˇepodob” nosti, s jakou se histogram v´ ybˇeru z takov´eho rozdˇelen´ı jev´ı jako bimod´aln´ı. Pro ilustraci vezmˇeme nejprve konkr´etn´ı smˇes dvou norm´aln´ıch rozdˇelen´ı N(0, 1) a N(2, 1) s v´ahami p = q = 21 (viz obr´azek 1(b)) a uvaˇzujme n´ahodnou veliˇcinu X s t´ımto rozdˇelen´ım. Zamˇeˇrme se pouze na interval [0, 2]. Rozdˇel´ımeli jej na ˇsest stejnˇe velk´ ych podinterval˚ u I1 , . . . , I6 , je pravdˇepodobnost, ˇze X padne do intervalu Ii , pˇribliˇznˇe stejn´a pro vˇsechna i = 1, . . . , 6. Podm´ınˇen´e pravdˇepodobnosti P(X ∈ Ii |X ∈ [0, 2]), i = 1, . . . , 6, jsou postupnˇe 0.1630, 0.1680, 0.1690, 0.1690, 0.1680 a 0.1630. V pˇr´ıpadˇe, ˇze se zamˇeˇr´ıme na veliˇcinu X pouze na intervalu [0, 2], tj. podm´ın´ıme-li jej´ı rozdˇelen´ı jevem X ∈ [0, 2] , dostaneme tak pˇribliˇznˇe rovnomˇern´e rozdˇelen´ı na [0, 2]. Podobnou u ´ vahu m˚ uˇzeme snadno aplikovat na rozdˇelen´ı s tup´ ym“ vr” cholem obecnˇe. Doch´az´ıme k n´asleduj´ıc´ımu z´avˇeru: Jelikoˇz jsme se pˇri posuzov´an´ı histogramu omezili pouze na zkoum´an´ı nˇekolika jeho prostˇredn´ıch tˇr´ıd, staˇc´ı n´am d´ıvat se na danou hustotu jen na nˇejak´em okol´ı jej´ıho vrcholu. Rozdˇelen´ı, jehoˇz vrchol je dostateˇcnˇe tup´ y“, m˚ uˇzeme na tomto in” tervalu dostateˇcnˇe dobˇre aproximovat rovnomˇern´ ym rozdˇelen´ım. Okamˇzitˇe se tud´ıˇz nab´ız´ı n´asleduj´ıc´ı zjednoduˇsen´ı cel´eho probl´emu: Najdeme-li odhad pravdˇepodobnosti, s jakou se histogram v´ ybˇeru z rovnomˇern´eho rozdˇelen´ı jev´ı jako bimod´aln´ı, budeme jej pak moci pouˇz´ıt i pro jak´ekoliv unimod´aln´ı rozdˇelen´ı s tup´ ym“ vrcholem. ”
27
4.
Histogramy v´ ybˇ er˚ u z rovnomˇ ern´ eho rozdˇ elen´ı
Kdy tedy ch´apeme histogram jako bimod´aln´ı? Zcela intuitivnˇe to bude v pˇr´ıpadˇe, ˇze m´a pr´avˇe dva vrcholy“. Pˇripomeˇ nme, ˇze v tomto momentˇe se jiˇz ” d´ıv´ame pouze na nˇekolik, ˇreknˇeme N , prostˇredn´ıch tˇr´ıd histogramu a ˇcetnosti ostatn´ıch nech´av´ame stranou. Bimod´aln´ı tak bude takov´ y histogram, kter´ y m´a mezi tˇemito N tˇr´ıdami pr´avˇe dvˇe maxima“, tj. splˇ nuje podm´ınku: ” Oznaˇcme zvolen´ ych N prostˇredn´ıch tˇr´ıd histogramu jako 1, 2, . . . , N a jejich odpov´ıdaj´ıc´ı ˇcetnosti n1 , n2 , . . . , nN , kde ni ≥ 0 pro vˇsechna i = 1, . . . , N . ˇ Dodefinujme n0 = nN +1 = 0. Rekneme, ˇze dan´ y histogram je bimod´ aln´ı, jestliˇze existuj´ı pˇrirozen´a ˇc´ısla M1 , M2 , M3 takov´a, ˇze plat´ı 0 < M1 < M2 < M3 < N + 1 a ni−1 ≤ ni ni−1 ≥ ni
pro i = 1, . . . , M1 , pro i = M1 + 2, . . . , M2 ,
nM1 > nM1 +1 , nM2 < nM2 +1 ,
pro i = M2 + 2, . . . , M3 ,
nM3 > nM3 +1 ,
ni−1 ≥ ni
pro i = M3 + 2, . . . , N + 1.
ni−1 ≤ ni
V takov´em pˇr´ıpadˇe budeme i pˇr´ısluˇsnou posloupnost ˇc´ısel {ni }N yvat i=1 naz´ bimod´aln´ı. Permutaci ˇc´ısel 1, . . . , N nazveme bimod´ aln´ı permutac´ı, jestliˇze je tato posloupnost ˇc´ısel bimod´aln´ı. Pro histogramy v´ ybˇer˚ u z rovnomˇern´eho rozdˇelen´ı m˚ uˇzeme dok´azat n´asleduj´ıc´ı tvrzen´ı popisuj´ıc´ı jejich chov´an´ı2: Je-li X1 , . . . , XM n´ ahodn´y v´ybˇer z rovnomˇern´eho rozdˇelen´ı na intervalu [a, b], a, b ∈ R, a N ∈ N, potom pro M → ∞ se pravdˇepodobnost, s jakou je histogram tohoto n´ ahodn´eho v´ybˇeru s N tˇr´ıdami bimod´ aln´ı, bl´ıˇz´ı k pravdˇepodobnosti, ˇze je n´ ahodn´ a permutace ˇc´ısel 1, . . . , N bimod´ aln´ı. V tabulce 1 jsou uvedeny ˇcetnosti bimod´aln´ıch permutac´ı ˇc´ısel 1, . . . , N pro N = 4, . . . , 8. Vyˇceteme z n´ı napˇr´ıklad, ˇze mezi permutacemi ˇc´ısel 1, . . . , 6 je pˇribliˇznˇe 57.8 % bimod´aln´ıch. Podle v´ yˇse uveden´eho tvrzen´ı m˚ uˇzeme hodnotu 0.578 br´at jako odhad pravdˇepodobnosti, s jakou histogram n´ahodn´eho v´ ybˇeru poch´azej´ıc´ıho z rovnomˇern´eho rozdˇelen´ı R[0, 1] s ˇsesti tˇr´ıdami vykazuje dva vrcholy. Jestliˇze tedy obecnˇe bereme pˇri posuzov´an´ı modality v u ´ vahu jen prostˇredn´ıch ˇsest tˇr´ıd histogramu, lze hodnotu 0.578 br´at i jako odhad pravdˇepodobnosti, s jakou se n´am histogram v´ ybˇeru z rozdˇelen´ı s tup´ ym“ ” vrcholem jev´ı jako bimod´aln´ı. 2 D˚ ukaz
uveden´ eho tvrzen´ı viz [1].
28
ˇ Cetnosti bimod´aln´ıch permutac´ı N 4 5 6 poˇcet vˇsech permutac´ı 24 120 720 poˇcet bimod´aln´ıch permutac´ı 16 88 416 pod´ıl bimod´aln´ıch permutac´ı 0.6 0.73 0.57
7 5040 1824 0.362
8 40320 7680 0.191
Tab. 1. Poˇcty bimod´aln´ıch permutac´ı ˇc´ısel 1, . . . , N, N = 4, . . . , 8. Jak tedy m˚ uˇzeme vidˇet, tato pravdˇepodobnost rozhodnˇe nen´ı zanedbateln´a. Proto posuzov´an´ı bimodality rozdˇelen´ı na z´akladˇe histogramu nen´ı ani v nejmenˇs´ım vhodn´e a mohlo by velmi ˇcasto v´est k nespr´avn´ ym a zav´adˇej´ıc´ım z´avˇer˚ um.
5.
Kdyˇ z ne histogram, tak co tedy?
Co tedy pouˇz´ıt v situaci, kdy potˇrebujeme zjistit, zda naˇse data poch´azej´ı z rozdˇelen´ı s jedn´ım ˇci v´ıce vrcholy? Histogram zjevnˇe nen´ı dobr´ y n´astroj. Naˇstˇest´ı existuj´ı jin´e moˇzn´e postupy. V programu R je implementov´an dip test (viz [2]), pomoc´ı kter´eho m˚ uˇzeme testovat, zda dan´ y n´ahodn´ y v´ ybˇer poch´az´ı z unimod´aln´ıho rozdˇelen´ı. Testovou statistikou je tzv. dip, kter´ y je jakousi m´ırou vzd´alenosti empirick´e distribuˇcn´ı funkce dan´eho v´ ybˇeru a tˇr´ıdy vˇsech unimod´aln´ıch distribuˇcn´ıch funkc´ı. Funkce dip z knihovny diptest spoˇc´ıt´ a pro naˇse data dip statistiku a porovn´an´ım jej´ı hodnoty s pˇr´ısluˇsn´ ym empirick´ ym kvantilem (tabulka qDiptab z t´eˇze knihovny) pak m˚ uˇzeme uˇcinit z´avˇer, zda na zvolen´e testovac´ı hladinˇe zam´ıt´ame nulovou hypot´ezu unimodality ˇci nikoliv. Pˇri konstrukci testu je nutn´e zvolit konkr´etn´ı unimod´ aln´ı rozdˇelen´ı za nulov´e hypot´ezy. Zˇrejmˇe vˇsak neexistuje takov´e, pro nˇeˇz by byla dip statistika stochasticky vˇetˇs´ı neˇz pro vˇsechna ostatn´ı unimod´aln´ı rozdˇelen´ı. Proto se vol´ı za nulov´e hypot´ezy rovnomˇern´e rozdˇelen´ı. Tato volba je velmi jednoduch´a, ale vede k testu, kter´ y je asymptoticky konzervativn´ı (viz [2]). Pro ilustraci jsou v tabulce 2 uvedeny relativn´ı ˇcetnosti v´ ybˇer˚ u generovan´ ych z rovnomˇern´eho a norm´aln´ıho rozdˇelen´ı, pro nˇeˇz byla hypot´eza unimodality dip testem na hladinˇe 0.05 zam´ıtnuta. Pro v´ ybˇery z norm´aln´ıho rozdˇelen´ı se zd´a b´ yt chyba prvn´ıho druhu znatelnˇe menˇs´ı neˇz 0.05 a pro rostouc´ı rozsah se dokonce bl´ıˇz´ı k 0. Tato skuteˇcnost potvrzuje asymptotick´e vlastnosti uk´azan´e v [2] a zm´ınˇenou konzervativnost testu.
29
rozdˇelen´ı rovnomˇern´e R[0, 1] norm´aln´ı N(0, 1)
50 0.04995 0.00292
rozsah v´ ybˇeru 100 1000 0.04867 0.04834 0.00109 0.00004
5000 0.04946 0
0.2 −2
−1
0
^ (a) xL
1
x^U
0.0
0.0
0.2
0.4
Tab. 2. Relativn´ı ˇcetnost v´ ybˇer˚ u, pro nˇeˇz byla hypot´eza unimodality dip testem na hladinˇe 0.05 zam´ıtnuta: V prvn´ım ˇr´adku jsou v´ ysledky dip testu pro 100 000 n´ahodn´ ych v´ ybˇer˚ u simulovan´ ych z rovnomˇern´eho rozdˇelen´ı, druh´ y ˇr´adek odpov´ıd´a v´ ybˇer˚ um generovan´ ym z norm´aln´ıho rozdˇelen´ı N(0, 1). Poˇc´ateˇcn´ı nastaven´ı set.seed(1023). Mohlo by n´as zaj´ımat, jak dip test posoud´ı rozdˇelen´ı v´ ybˇer˚ u, jejichˇz histogramy z obr´ azku 2 jsme diskutovali v pˇredchoz´ıch odstavc´ıch. Pˇripomeˇ nme, ˇze jde o data simulovan´a z norm´aln´ıho rozdˇelen´ı N(0, 1) o rozsahu 100 pozorov´an´ı a jejich histogramy vykazovaly v´ıce neˇz jeden vrchol. V prvn´ım pˇr´ıpadˇe jsme simulace provedli s nastaven´ım set.seed(89) a histogram indikoval dvˇe maxima. Dip statistika spoˇcten´ a pro tento v´ ybˇer vych´az´ı 0.0408. Jelikoˇz kritick´a hodnota na hladinˇe v´ yznamnosti 0.05 pro rozsah v´ ybˇeru 100 je 0.0511, dip test hypot´ezu unimodality nezam´ıt´a. Na obr´azku 3(a) je vykreslen histogram a neparametrick´ y odhad hustoty obdrˇzen´ y funkc´ı density. D´ale je zn´azornˇen odhad (ˆ xL , x ˆU ) intervalu, ve kter´em by se mˇel nach´azet vrchol rozdˇelen´ı. Pro druh´ y v´ ybˇer, generovan´ y z N(0, 1) s nastaven´ım set.seed(59), vych´az´ı dip roven 0.0256, takˇze stejnˇe jako v pˇredchoz´ım pˇr´ıpadˇe hypot´ezu unimodality na hladinˇe 0.05 nezam´ıt´ame. Grafick´e zn´azornˇen´ı viz obr´azek 3(b). V obou pˇr´ıpadech n´am tedy dip test d´av´a na naˇsi ot´azku o unimodalitˇe rozdˇelen´ı spr´avnou odpovˇed’“. ”
2
−2
0
1
^ ^ (b) xL xU
2
Obr. 3. Histogram, odhad hustoty (funkce density) a mod´aln´ıho intervalu rozdˇelen´ı n´ahodn´eho v´ ybˇeru o rozsahu 100 pozorov´an´ı simulovan´eho z N(0, 1) v programu R s nastaven´ım (a) set.seed(89) a (b) set.seed(59). 30
3
Pˇri zkoum´an´ı histogram˚ u jsme se zab´ yvali pˇredevˇs´ım smˇesmi dvou unimod´aln´ıch rozdˇelen´ı. Pod´ıvejme se proto nyn´ı na to, jak dip test funguje v takov´ ych pˇr´ıpadech. K tomuto u ´ˇcelu jsme v programu R simulovali n´ahodn´e v´ ybˇery ze smˇesi dvou norm´aln´ıch rozdˇelen´ı N(0, 1) a N(µ, 1) s v´ahami p = q = 12 s r˚ uzn´ ymi rozsahy a volbami parametru µ a sledovali jsme, jak´e v´ ysledky d´av´a dip test. Nen´ı obt´ıˇzn´e uk´azat (viz [4]), ˇze smˇes dvou norm´aln´ıch rozdˇelen´ı N(0, 1) a N(µ, 1) s v´ahami p = q = 12 je unimod´aln´ı pro |µ| ≤ 2 a bimod´aln´ı pro |µ| > 2. Tud´ıˇz bychom zˇrejmˇe pro µ > 2 oˇcek´avali zam´ıtnut´ı nulov´e hypot´ezy unimodality. V tabulce 3 jsou uvedeny v´ ysledky dip testu pro 100 000 generovan´ ych v´ ybˇer˚ u s rozsahy M = 100, 1000 a 5000 pro volby µ = 2, 2.5, 2.8, 3, 3.5 a inici´aln´ı nastaven´ı set.seed(1023) v programu R. Vid´ıme, ˇze pˇri rostouc´ım rozsahu v´ ybˇeru roste i s´ıla testu. Ale napˇr´ıklad pro µ = 2.5 a pro rozsah 5000 pozorov´an´ı jsme st´ale u 70 % v´ ybˇer˚ u hypot´ezu unimodality nezam´ıtli, pˇrestoˇze se jednalo o data z bimod´aln´ıho rozdˇelen´ı. Pˇri pouˇzit´ı dip testu se tak dost´av´ame do opaˇcn´eho probl´emu neˇz tomu bylo u histogram˚ u. Na z´akladˇe nich jsme mohli s nezanedbatelnou pravdˇepodobnost´ı povaˇzovat unimod´aln´ı rozdˇelen´ı za bimod´aln´ı. Naopak, pomoc´ı dip testu bychom mohli bimod´aln´ı rozdˇelen´ı mylnˇe oznaˇcit jako unimod´aln´ı. Rozhodnˇe je vˇsak vhodnˇejˇs´ı pˇri posuzov´an´ı bimodality pouˇz´ıt form´aln´ı dip test neˇz dˇelat nepodloˇzen´e z´avˇery na z´akladˇe histogramu indikuj´ıc´ıho dva moˇzn´e vrcholy.
µ 2.0 2.5 2.8 3.0 3.5
rozsah v´ ybˇeru 100 1000 0.00458 0.00061 0.02092 0.04888 0.05634 0.42790 0.06856 0.82634 0.38187 0.99998
M 5000 0.00008 0.30210 0.99584 1 1
Tab. 3. V´ ysledky dip testu pro 100 000 n´ahodn´ ych v´ ybˇer˚ u simulovan´ ych ze smˇesi dvou norm´aln´ıch rozdˇelen´ı N(0, 1) a N(µ, 1) s v´ahami p = q = 12 pro r˚ uzn´e hodnoty µ a r˚ uzn´e rozsahy v´ ybˇer˚ u M . V tabulce jsou uvedeny relativn´ı ˇcetnosti v´ ybˇer˚ u, pro nˇeˇz byla hypot´eza unimodality zam´ıtnuta. Pro µ = 2 je dan´a smˇes unimod´aln´ı a pro µ > 2 je smˇes bimod´ aln´ı. Vˇzdy inici´aln´ı nastaven´ı set.seed(1023) v programu R.
31
6.
Re´ aln´ y pˇ r´ıklad — ˇ ziv´ y“ histogram ”
0.00
0.03
Na zaˇc´atku naˇseho textu, v ˇc´asti 2., jsme diskutovali o subjektivn´ım postoji pˇri posuzov´an´ı histogram˚ u. Uk´azali jsme, ˇze dan´ y dvouvrcholov´ y histogram na n´as ve dvou r˚ uzn´ ych situac´ıch m˚ uˇze p˚ usobit zcela jin´ ym dojmem. V prvn´ım pˇr´ıpadˇe jsme vˇetˇs´ı poˇcet vrchol˚ u automaticky pˇripsali nepˇresnosti odhadu, jelikoˇz jsme vˇedˇeli, ˇze data poch´ azej´ı z norm´aln´ıho rozdˇelen´ı. Naopak ve druh´em pˇr´ıpadˇe jsme mˇeli data poch´azej´ıc´ı ze smˇesi dvou rozdˇelen´ı, a tak jsme dva vrcholy moˇzn´a i trochu oˇcek´ avali a nechali se proto pˇresvˇedˇcit o bimodalitˇe odpov´ıdaj´ıc´ı hustoty. Pˇr´ıkladem takov´eho jedn´an´ı, kdy byl tvar histogramu shled´an jako dostateˇcn´ y d˚ ukaz bimodality, je n´asleduj´ıc´ı situace poch´azej´ıc´ı ze ˇcl´anku [5]. Bˇehem jedn´e pˇredn´aˇsky ze statistiky seˇradil vyuˇcuj´ıc´ı sv´e studenty na ˇskoln´ım hˇriˇsti do skupin dle jejich v´ yˇsky a zkonstruoval tak jak´ ysi ˇziv´ y“ ” histogram. Jeho tvar p˚ usobil bimod´alnˇe“ (viz obr´azek 4(a)), a tak bylo ” z´abavnou formou student˚ um ilustrov´ano, ˇze rozdˇelen´ı lidsk´e v´ yˇsky, jakoˇzto smˇes dvou unimod´aln´ıch rozdˇelen´ı, m´a dva vrcholy. Bezpochyby se jednalo o velmi zdatn´ y didaktick´ y poˇcin. Avˇsak probl´em je v tom, ˇze takov´e tvrzen´ı nen´ı pravdiv´e. Autoˇri ˇcl´anku [5] se pod´ıvali na rozdˇelen´ı v´ yˇsky student˚ u v´ıce teoreticky. Na z´akladˇe dat poch´azej´ıc´ıch z ˇsetˇren´ı st´atn´ıho zdravotn´ıho centra USA odhadli parametry rozdˇelen´ı v´ yˇsky muˇz˚ u a v´ yˇsky ˇzen v odpov´ıdaj´ıc´ım vˇeku. Aplikac´ı teoretick´ ych krit´eri´ı potom zjistili, ˇze v´ ysledn´e spoleˇcn´e rozdˇelen´ı v´ yˇsky by mˇelo b´ yt unimod´aln´ı, viz obr´azek 4(b), a nikoliv bimod´aln´ı!
(a)
160
180 (b)
Obr. 4. (a) Struktura ˇziv´eho“ histogramu student˚ u: Zn´azornˇen´e ” teˇcky odpov´ıdaj´ı jednotliv´ ym student˚ um, d´ıvky a chlapci jsou barevnˇe odliˇseni. (b) Hustota rozdˇelen´ı v´ yˇsky student˚ u spoˇcten´a na z´akladˇe odhadnut´ ych parametr˚ u.
32
Z´avˇer z cel´eho experimentu je tedy sp´ıˇse rozpaˇcit´ y. M´ısto toho, aby vyuˇcuj´ıc´ı student˚ um uk´azal pˇr´ıklad bimod´aln´ıho rozdˇelen´ı, dopustil se chyby a sdˇelil jim nepravdivou informaci. Nav´ıc sv´ ym ˇz´ak˚ um (nechtˇenˇe) pˇr´ımo demonstroval nekorektn´ı postup, kter´ y ho dovedl k nespr´avn´ ym z´avˇer˚ um. A tak m˚ uˇzeme jen doufat, ˇze ˇz´adn´ y ze zm´ınˇen´ ych student˚ u nepouˇzije podobnou nepodloˇzenou u ´ vahu pˇri nˇejak´e skuteˇcnˇe d˚ uleˇzit´e anal´ yze dat.
7.
Z´ avˇ er
Z´avˇerem lze shrnout, ˇze posuzov´an´ı bimodality ˇci unimodality dan´e hustoty pouze na z´akladˇe tvaru histogramu m˚ uˇze ˇcasto v´est k nespr´avn´ ym z´avˇer˚ um. V situaci, kdy n´as skuteˇcnˇe zaj´ım´a poˇcet vrchol˚ u zkouman´eho rozdˇelen´ı, je vhodnˇejˇs´ı pouˇz´ıt jin´e postupy. Rozhodnˇe bychom se nemˇeli nechat ovlivnit naˇsimi oˇcek´av´an´ımi a d´at se strhnout k un´ahlen´ ym a nepodloˇzen´ ym soud˚ um, tak jako tomu bylo v uveden´em pˇr´ıkladˇe vyuˇcuj´ıc´ıho a v´ yˇsky jeho student˚ u.
Podˇ ekov´ an´ı: Pˇr´ıspˇevek vznikl za pomoci grantu MSM 0021620839. Reference ˇ (2006) Bimod´aln´ı rozdˇelen´ı. Diplomov´ [1] Doˇsl´a S. a pr´ ace, Univerzita Karlova, Praha. [2] Hartigan J.A., Hartigan P.M. (1985) The dip test of unimodality. Ann. Statist. 13, 70–84. [3] Kemperman J.H.B. (1991) Mixture with a limited number of modal intervals. Ann. Statist. 19, 2120–2144. [4] Robertson C.A., Fryer J.G. (1969) Some descriptive properties of normal mixtures. Skand. Aktuarietidskr. 52, 137–146. [5] Schilling M.F., Watkins A.E., Watkins W. (2002) Is human height bimodal? Amer. Statist. 56, 223–229.
33
´ SSK ˇ ´ STATISTICKY ´ DEN 2007 MIKULA Y Marek Mal´ y ´ Praha Adresa: SZU, E-mail :
[email protected] ˇ a statistick´a spoleˇcnost 6. prosince pˇredn´aˇskov´ Rok 2007 zakonˇcila Cesk´ ym semin´aˇrem v pˇr´ıjemn´em prostˇred´ı Balb´ınovy poetick´e hosp˚ udky na Vinohradech v Praze. Asi 25 posluchaˇc˚ u vyslechlo v pr˚ ubˇehu pˇetihodinov´eho programu Mikul´ aˇssk´eho statistick´eho dne osm pˇredn´aˇsek, kter´e se dotkly r˚ uzn´ ych aspekt˚ u statistick´e teorie i praxe. Mezi pˇredn´aˇsej´ıc´ı se zam´ıchal i hodn´ y ˇcert, kter´ y podˇelil mal´ ymi d´arky vˇsechny posluchaˇce, Mikul´aˇs osobnˇe k n´am tˇreba zav´ıt´a pˇr´ıˇstˇe. P. Praks a P. Zajac pˇripravili pˇredn´aˇsku o posuzov´an´ı spolehlivosti softwaru (PageRank ve statistice). D. Hlubinka se zab´ yval dotazn´ıkov´ ymi n´astroji, kter´e jsou ned´ılnou souˇc´ast´ı pr´ace kaˇzd´eho statistika pohybuj´ıc´ıho se v aplikac´ıch (O kvalitˇe vyplˇ nov´ an´ı dotazn´ık˚ u v rovn´ıkov´e Africe), P. Popela se zab´ yval d˚ uleˇzit´ ymi ot´azkami posuzov´an´ı naˇs´ı pr´ ace a hodnocen´ım ˇcinnosti vysok´ ych ˇskol (Jak v´ aˇz´ıme vˇedu). Po poledn´ı pˇrest´avce uk´azal J. Bˇel´aˇcek konkr´etn´ı aplikace statistiky v prostˇred´ı l´ekaˇrsk´e fakulty (Jak jsem doloval v datech aneb O u ´plnˇe norm´ aln´ıch regresn´ıch pˇr´ımk´ ach), J. Andˇel ve velmi zaj´ımav´e pˇredn´aˇsce ilustroval na dvou pˇr´ıkladech konstrukci regresn´ıch model˚ u jednak z pohledu moˇzn´eho vlivu grafick´eho zn´azornˇen´ı, jednak z pohledu vyuˇzit´ı dodateˇcn´e informace (Volba regresn´ıho modelu a o chyb´ ach, kter´e se pˇritom dˇelaj´ı), G. Dohnal n´am vysvˇetlil, proˇc se v ˇzivotˇe tolik naˇcek´ame (Frontov´e paradoxy), Z. Fabi´an ve vesele ladˇen´em pˇr´ıspˇevku pohovoˇril o v´aˇzn´em t´ematu (Inferenˇcn´ı funkce a parametrick´e odhady) a z´avˇerem J. Klaschka na pozad´ı praktick´e aplikace pouk´azal na u ´ skal´ı v pˇr´ıstupu l´ekaˇr˚ u ke statistice (Co je statisticky nejv´yznamnˇejˇs´ı? ). Diskuse, kter´a se rozhodnˇe net´ ykala jen semin´aˇre, n´ ybrˇz i mnoha dalˇs´ıch zaj´ımav´ ych t´emat statistick´e komunity, se po semin´aˇri pˇresunula do pˇrilehl´e kav´arny. V pr˚ ubˇehu statistick´eho dne mˇeli u ´ˇcastn´ıci v´ yjimeˇcnou moˇznost seˇ e statistick´e spoleˇcnosti v jej´ı tkat se vˇsemi pˇeti dosavadn´ımi pˇredsedy Cesk´ ˇ sedmn´actilet´e historii, tedy prof. Andˇelem, prof. Cerm´ akem, ing. Rothem, prof. Antochem a doc. Dohnalem. Nˇekter´e z pˇredn´aˇsek autoˇri pˇripravili pro publikaci v Informaˇcn´ım bulletinu, takˇze i ti, jimˇz pˇredv´anoˇcn´ı shon neumoˇznil chvilku zastaven´ı se statistikou, budou m´ıt moˇznost se s prob´ıran´ ymi t´ematy sezn´amit a tˇreba je to podn´ıt´ı k u ´ˇcasti na nˇekter´e z dalˇs´ıch akc´ı.
34
´ KONFERENCE A CTVRT ˇ ´ STUDENTSKA E ´ ´ ´ ´ ´ SETKANI NARODNICH STATISTICKYCH ˇ ´I V PRAZE SPOLECNOST Gejza Dohnal E-mail :
[email protected] Poˇc´ atkem z´ aˇr´ı (4. - 6.9. 2008) probˇehne v Praze dalˇs´ı, v poˇrad´ı jiˇz ˇctvrt´e setk´ an´ı z´ astupc˚ u n´ arodn´ıch statistick´ ych spoleˇcnost´ı. V posledn´ım ˇc´ısle IB minul´eho roku jsme V´ as informovali o 3. setk´ an´ı, kter´e se uskuteˇcnilo na podzim 2007 ve Slovinsk´e Ljubljani. Letoˇsn´ı stek´ an´ı bude spojeno s mezin´ aroidn´ı studentskou konferenc´ı o matematick´e statistice a pravdˇepodobnosti, na n´ıˇz pˇredpokl´ ad´ ame u ´ˇcast student˚ u ˇ ze vˇsech z´ uˇcastnˇen´ ych zem´ı, tj. z Ceska, Mad’arska, Slovenska, Slovinska, Rakouska a Rumunska (skupina V6). Konference bude m´ıt dvˇe sekce, jednu pro studenty ´ cast student˚ magistersk´eho studia a druhou pro doktorandy. Uˇ u na t´eto konferenci bude finanˇcnˇe podpoˇrena jejich n´ arodn´ımi statistick´ ymi spoleˇcnostmi. Pro ˇradu student˚ u by to mohla b´ yt jejich prvn´ı pˇr´ıleˇzitost vystoupit pˇred mezin´ arodn´ım f´ orem. Studenti obou typ˚ u studia (magistersk´eho i postgradu´ aln´ıho) mohou jiˇz ted’ ˇ pos´ılat sv´e pˇrihl´ aˇsky na adresu tajemn´ıka Cesk´ e statistick´e spoleˇcnosti. Pˇrihl´ aˇska by mˇela obsahovat kromˇe jm´ena studenta a kontaktu i n´ azev pˇr´ıspˇevku, kr´ atkou anotaci, n´ azev ˇskoly, obor, roˇcn´ık a pˇr´ıpadnˇe doporuˇcen´ı vedouc´ıho diplomov´e pr´ ace ˇci ˇskolitele. Pˇrijat´e pˇr´ıspˇevky budou publikov´ any v nˇekter´em z periodik, vyd´ avan´ ych statistick´ ymi spoleˇcnostmi skupiny V6.
KONFERENCE ISBIS 2008 Mezin´ arodn´ı spoleˇcnost pro obchodn´ı a pr˚ umyslovou statistiku (ISBIS) poˇr´ ad´ a kaˇzd´e dva roky mezin´ arodn´ı symposium, na nˇemˇz vystupuj´ı pˇredn´ı svˇetov´ı experti v uveden´ ych oblastech. Po Severn´ım Qeenslandu, Limˇe a Azorech se bude toto setk´ an´ı konat letos v ˇcervenci v Praze. Symposium probˇehne ve dnech 1. – 4. 7. 2008 v hotelu Andˇel na Sm´ıchovˇe v Praze 5. Hlavn´ımi poˇradateli jsou American Statistical Association, Section on Physical and Engineering Sciences a American Society for Quality, spolupoˇr´ adaj´ıc´ımi organizacemi jsou International Statistical Institute, ˇ European Network of Business and Industry Statistics a v neposledn´ı ˇradˇe i Cesk´ a ˇ statistick´ a spoleˇcnost a Centrum pro jakost a spolehlivost v´ yroby CQR. Clenov´e vˇsech z´ uˇcastnˇen´ ych organizac´ı, tedy i naˇs´ı spoleˇcnosti, maj´ı slevu na vloˇzn´em. Hlavn´ı sekce budou vˇenov´ any kvantitativn´ı anal´ yze v bankovnictv´ı, finanˇcnictv´ı a pojiˇst’ovnictv´ı. Pˇripravuj´ı se vˇsak i sekce t´ ykaj´ıc´ı se statistick´ ych metod v ˇr´ızen´ı jakosti, spolehlivosti a anal´ yzy rizik. Jejich seznam, spolu s dalˇs´ımi informacemi a registraˇcn´ım formul´ aˇrem viz http://www.action-m.com/isbis2008/index.php
35
ˇ V´ybor CStS, Zpr´ava o ˇcinnosti v roce 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 ˇ V´ybor CStS, Blahopˇr´an´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Patr´ıcia Martinkov´ a, Nˇekolik slov o reliabilitˇe sloˇzen´ ych dichotomn´ıch mˇeˇren´ı, aneb doktorandkou pana docenta Zv´ary . . . . . . . . . . . . . . . . . . . . 3 Jiˇr´ı Andˇel, Volba regresn´ıho modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Jiˇr´ı Andˇel, Jarom´ır Antoch, Pˇrij´ımac´ı zkouˇsky z matematiky na MFF UK v roce 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 ˇarka Doˇsl´ S´ a, Posuzov´an´ı bimodality na z´akladˇe histogramu . . . . . . . . . . . . 24 Marek Mal´y, Mikul´aˇssk´ y statistick´ y den 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Gejza Dohnal, Studentsk´a konference a ˇctvrt´e setk´an´ı n´arodn´ıch statistick´ ych spoleˇcnost´ı v Praze . . . . . . . . . . . . . . . . . . . . . . . 35 Konference ISBIS 2008 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
V´aˇzen´e kolegynˇe, v´aˇzen´ı kolegov´e, redakce, v´ ybor spoleˇcnosti a organiz´atoˇri si V´as dovoluj´ı pozvat na Libereck´e statistick´e dny Pr˚ umyslov´ a statistika a chemometrie, kter´e se uskuteˇcn´ı ve dnech 10. – 11. dubna v Liberci. Z´ajemci o podrobn´e informace necht’ se obr´at´ı na doc. RNDr. Aleˇse Linku, CSc. (
[email protected]).
ˇ ISSN 1210 – 8022. Informaˇ cn´ı Bulletin Cesk´ e statistick´ e spoleˇ cnosti vych´ az´ı ˇ ctyˇrikr´ at do roka v ˇ cesk´ em vyd´ an´ı. Pˇr´ıleˇ zitostnˇ e i mimoˇra ´dn´ eˇ cesk´ e a anglick´ eˇ c´ıslo. ´ ˇ Pˇ redseda spoleˇ cnosti: Doc. RNDr. Gejza Dohnal, CSc., UTM FS CVUT v Praze, Karlovo n´ amˇ est´ı 13, 121 35 Praha 2, e-mail:
[email protected] ˇ ´ k, DrSc. (pˇredseda), Prof. RNDr. Jarom´ır Antoch, Ediˇ cn´ı rada: Prof. Ing. V´ aclav Cerm a ´ , CSc., Doc. RNDr. Jiˇr´ı Micha ´ lek, CSc., Doc. Ing. Josef Tvrd´ık, CSc., RNDr. Marek Maly ´ , CSc. CSc., Doc. RNDr. Zdenˇ ek Karp´ıˇ sek, CSc. a Prof. Ing. Jiˇr´ı Militky Techniˇ ct´ı redaktoˇ ri: Doc. RNDr. Gejza Dohnal, CSc.,
[email protected] ˇ´ıˇ a Ing. Pavel Str z, Ph.D.,
[email protected] Pokyny autor˚ um:
FTP: exp.uis.fame.utb.cz; uˇ zivatel: csts; heslo: csts WEB server:
36