Informa ní Bulletin Základní údaje o společnosti. Uplynulý rok byl prvním rokem dvouletého

T Á S AT

P O

K

OLEČN

ST

*

ČE

S

ˇ e Statistické Spoleˇcnosti Cesk´

TICKÁ

S

InformaĀní Bulletin

IS

ˇc´ıslo 1, roˇcn´ık 19, u ńor 2008

ˇ Zpr´ ava o ˇ cinnosti Cesk´ e statistick´ e spoleˇ cnosti v roce 2007, která byla pˇrednesená a projednaná na výroˇcn´ı sch˚uzi spoleˇcnosti dne 31. 1. 2008. 1. Z´ akladn´ı u ´daje o spoleˇ cnosti. Uplynul´ y rok byl prvn´ım rokem dvouletého ˇ ˇ funkˇcn´ıho obdob´ı v´ yboru Cesk´ e statistické spoleˇcnosti (CStS), kter´ y byl zvolen na valné hromadˇe dne 8. 2. 2007. Pˇredsedou byl Doc. RNDr. Gejza Dohnal, ˇ ˇ U) ´ a CSc. (FS CVUT v Praze), m´ıstopˇredsedou Ing. Jan Fischer, CSc. (CS ˇ Praha). K dneˇsn´ımu dni hospod´ aˇrkou doc. Ing. Dagmar Blatn´ a, CSc. (VSE ˇ m´ a CStS 234 ˇclen˚ u, z toho 17 vstoupilo do spoleˇcnosti v roce 2007 a 3 v roce 2008. V roce 2007 ukonˇcili 2 ˇclenové ˇclenstv´ı na vlastn´ı ˇz´ adost, 1 zemˇrel. U dalˇs´ıch 2 bylo ˇclenstv´ı ukonˇceno pro neplacen´ı ˇclensk´ ych pˇr´ıspˇevk˚ u. Na vyˇrazen´ı kv˚ uli neplacen´ı je nyn´ı 10 kandid´ at˚ u (kteˇr´ı nezaplatili za 2005, 2006 a 2007). ˇ 2. Cinnost v´ yboru spoleˇ cnosti. V pr˚ ubˇehu roku se konala tˇri zased´ an´ı v´ yboru ˇ Ceské statistické spoleˇcnosti. O kaˇzdém z nich byl poˇr´ızen z´ apis, kter´ y je vˇsem z´ ajemc˚ um k dispozici. V mezidob´ı byli ˇclenové v´ yboru v kontaktu prostˇrednictv´ım e-mailu a diskutovali vˇsechny d˚ uleˇzité z´ aleˇzitosti, zejména pˇr´ıpravu akc´ı a bulletin˚ u. Kromˇe toho probˇehla ˇrada neform´ aln´ıch setk´ an´ı a porad pˇri jednotliv´ ych akc´ıch. Pˇri pˇr´ıleˇzitosti spoleˇcné konference STAKAN se Slovenskou ˇstatistickou a demografickou spo´loˇcnost’ou probˇehlo spoleˇcné jedn´ an´ı ˇclen˚ u v´ ybor˚ u obou spoleˇcnost´ı. 22. – 29. 8. 2007 se v Lisabonu konal 56. kongres ISI, kterého se z´ uˇcastnilo nˇekolik ˇclen˚ u v´ yboru (Antoch, ˇ Bartoˇsov´ a, Blatn´ a, Fischer, L¨ oster, Picek, Rezankov´ a). Jednu se sekc´ı, kde jsme se u ´ˇcastnili, organizovala Viszegradsk´ a skupina n´ arodn´ıch statistick´ ych ˇ spoleˇcnost´ı (Mad’arsko, Rakousko, Cesko, Slovensko, Slovinsko a Rumunsko). Pˇredseda spoleˇcnosti se z´ uˇcastnil 3. setk´ an´ı pˇredsed˚ u n´ arodn´ıch statistick´ ych spoleˇcnost´ı této skupiny ve Slovinské Ljubljani.

1

3. Odborn´ a aktivita spoleˇ cnosti. Valn´ a hromada v roce 2007 se konala ˇ U. ´ Na valné hromadˇe pˇrednesl v Praze dne 8. u ńora 2007 v zasedac´ı s´ıni CS ˇ ´ odbornou pˇredn´ aˇsku pˇredseda CSU Ing. Jan Fischer, CSc. na téma Problémy ˇ U ´ a aspekty, statistické sluˇzby. Zab´ yval se v n´ı problematikou pr´ ace na CS ˇ které pˇrin´ aˇs´ı souˇcasn´ a doba a technika nejen v CR, ale i v mezin´ arodn´ım kontextu. Spoleˇcnost se pod´ılela na organizaci konference Centra pro jakost a spolehlivost v´ yroby REQUEST v Praze ve dnech 30. 1. – 1. 2. 2007 ˇ Cesk´ a statistick´ a spoleˇcnost a Slovensk´ a statistick´ a a demografick´ a spoleˇcnost uspoˇr´ adaly spoleˇcnˇe v kvˇetnu (25. – 27. 5.) v Rusavˇe v Host´ ynsk´ ych vrˇs´ıch odborn´ y semin´ aˇr o v´ yuce a aplikac´ıch statistiky STAKAN 2007. Sborn´ık z této konference vyˇsel jako zvl´ aˇstn´ı ˇc´ıslo Forum Statisticum Slovacum na podzim ˇ spolu s DVD. CStS pˇrevzala z´ aˇstitu nad konferenc´ı TIES’2007, jeˇz se konala 16. – 20. 8. 2007 v Mikulovˇe. 6. 12. se v Balb´ınovˇe poetické hosp˚ udce v Praze konal Mikul´ aˇssk´ y statistick´ y den, kde zaznˇelo celkem osm pˇr´ıspˇevk˚ u. Veˇ dle konferenc´ı a semin´ aˇr˚ u je tˇreba zm´ınit tyto dalˇs´ı odborné aktivity: Cesk´ a statistick´ a spoleˇcnost se stala signat´ aˇrem deklarace ke vzniku oborového ˇ seskupen´ı Jakost a spolehlivost v r´ amci pˇripravované Cesk´ e technologické platformy Stroj´ırenstv´ı. V roce 2007 byla vyd´ ana ˇctyˇri ˇc´ısla Informaˇcn´ıho bulletinu a dvˇe DVD (STAKAN a GISAK) Internetové str´ anky spoleˇcnosti ˇ byly pravidelnˇe udrˇzov´ any a aktualizov´ any. CStS spolupracovala na vyd´ av´ an´ı ˇcasopisu Statistika. 4. Pl´ an aktivit pro rok 2008. V dubnu se v Liberci uskuteˇcn´ı dalˇs´ı, tentokr´ at dvoudenn´ı statistické dny V ˇcervnu 2008 probˇehne v Praze mezin´ arodn´ı symposium ISBIS 2008 vˇenované ekonomické a pr˚ umyslové statistice, na jehoˇz ˇ organizaci se naˇse spoleˇcnost pod´ıl´ı (ˇclenové CStS maj´ı slevu na vloˇzném) ˇ V létˇe se bude CStS pod´ılet na organizaci konference o jakosti a spolehlivosti v´ yroby v Brnˇe, jej´ımˇz hlavn´ım organiz´ atorem bude CQR 5. – 7. 9. 2008 bude naˇse spoleˇcnost organizovat v Praze mezin´ arodn´ı studentskou statistickou konferenci, spojenou se 4. setk´ an´ım pˇredsed˚ u n´ arodn´ıch statistick´ ych spoleˇcnost´ı. 8. – 12. 9. 2008 se bude konat dalˇs´ı ROBUST, tentokr´ at ve spolupr´ aci se Slovenskou statistickou a demografickou spoleˇcnost´ı.

ˇ AN ´ Í BLAHOPR V tˇechto dnech se doˇz´ıv´ a v´ yznamného ˇzivotn´ıho jubilea n´ aˇs ˇclen a kolega, doc. RNDr. Karel Zv´ ara, CSc., v´ yznamn´ y odborn´ık v oblasti regrese a aplikované statistiky. Kolega Zv´ ara vˇenoval pˇrev´ aˇznou ˇc´ ast svého ˇzivota v´ yuce statistiky, pˇredevˇs´ım ˇ pro nestatistiky, jakoˇz i aplikac´ım statistiky v pˇr´ırodovˇedˇe a medic´ınˇe. V´ ybor CStS, johoˇz byl kolega Zv´ ara po ˇradu let ˇclenem, mu pˇreje mnoho zdrav´ı a spokojenosti v dalˇs´ım ˇzivotˇe.

2

ˇ ˇ NEKOLIK SLOV O RELIABILITE ˇ ´ ´ ˇ REN ˇ Í SLOZENYCH DICHOTOMNICH ME ON RELIABILITY OF COMPOSED DICHOTOMOUS MEASUREMENTS aneb doktorandkou pana docenta Zv´ ary Patr´ıcia Martinkov´ a ˇ UI ´ AV CR, ˇ Praha Adresa: EuroMISE centrum UK a AV CR, E-mail : [email protected] Abstract This remark concentrates on generalization of popular Cronbach alpha for the case when the measurements are dichotomous. Main result is a new definition of reliability for this type of measurements based on conditional expectation and conditional variance. V jednom z pˇredchoz´ıch ˇc´ısel Informaˇcn´ıho Bulletinu (viz [1]) pojednal pan docent Zvára o reliabilitˇe mˇeˇren´ı a o Cronbachovˇe alfa, které se k jej´ımu odhadu ˇcasto pouˇz´ıvá. V závˇeru ˇclánku nast´ınil otázku, zda máme právo pouˇz´ıt postup zaloˇzen´ y na pˇredstavˇe o spojit´ ych veliˇcinách i v pˇr´ıpadˇe, kdy poloˇzky sloˇzeného mˇeˇren´ı jsou v´ yhradnˇe nulajedniˇckové. V takovém pˇr´ıpadˇe autor navrhl nahradit Cronbachovo alfa, jehoˇz odhad lze ve sm´ıˇseném modelu anal´ yzy rozptylu vyjádˇrit pomoc´ı testové statistiky F , jeho obdobou z logistické regrese, vyuˇz´ıvaj´ıc´ı testovou statistiku jinak slouˇz´ıc´ı k testován´ı analogické hypotézy. Za dobu posledn´ıch ˇctyˇr let jsem mˇela tu ˇcest pod veden´ım pana docenta Zváry bádat právˇe nad definován´ım a odhadován´ım reliability v pˇr´ıpadˇe sloˇzen´ ych dichotomn´ıch mˇeˇren´ı. Dovolte mi tu zm´ınit nˇekteré v´ ysledky tohoto bádán´ı. Za hlavn´ı v´ ysledek práce povaˇzuji navrˇzen´ı obecnˇejˇs´ı definice reliability pomoc´ı podm´ınˇené stˇredn´ı hodnoty a podm´ınˇeného rozptylu rel(Y ) =

var [E(Y |A)] var [E(Y |A)] = . var [E(Y |A)] + E [var(Y |A)] var(Y )

(1)

Nová definice, stejnˇe jako ta klasická, vyjadˇruje relativn´ı d´ıl celkové variability mˇeˇren´ı Y zp˚ usoben´ y variabilitou mˇeˇrené vlastnosti A. V pˇr´ıpadˇe sm´ıˇseného modelu anal´ yzy rozptylu obˇe definice spl´ yvaj´ı. Nav´ıc vˇsak novou definici vyuˇzijeme u model˚ u, v nichˇz nevystupuje chyba mˇeˇren´ı. Takov´ ym 3

modelem je i Rasch˚ uv model, bˇeˇznˇe pouˇz´ıvan´ y pro popis vlastnost´ı didaktick´ ych test˚ u s nulajedniˇckov´ ymi poloˇzkami. D´ıky tomu, ˇze se nám podaˇrilo vyjádˇrit reliabilitu v Raschovˇe modelu a dalˇs´ıch modelech vhodn´ ych pro popis sloˇzen´ ych dichotomn´ıch mˇeˇren´ı, bylo pak moˇzné, zat´ım alespoˇ n pomoc´ı simulac´ı, posoudit pouˇzitelnost odhadu navrˇzeného v [1]. Zdá se, ˇze v nˇekter´ ych pˇr´ıpadech novˇe navrˇzené logistické alfa odhaduje reliabilitu lépe neˇz alfa Cronbachovo. V´ ysledky byly publikovány v ˇclánku [2]. V´ yrazem (1) navazujeme na práci [3], jej´ıˇz tvrzen´ı o ekvivalentn´ı definici pro modely se spoleˇcn´ ym koeficientem vnitrotˇr´ıdn´ı korelace se nám podaˇrilo uvést na pravou m´ıru – naj´ıt protipˇr´ıklady a dokázat tvrzen´ı správné. Podaˇrilo se d´ıky tomu také nahradit poˇzadavky klasické τ -ekvivalence tak, ˇze Spearmanova-Brownova formule pro reliabilitu mˇeˇren´ı sloˇzeného z m poloˇzek z˚ ustává i nadále v platnosti. Postgraduáln´ı studium pod veden´ım pana docenta pro mne bylo velice ˇ pˇr´ınosné. Skolitel se mi stal velk´ ym vzorem nejen jako vˇedec, ale také jako pedagog s v´ yteˇcnˇe propracovanou pˇr´ıpravou (jak pro studenty tak pro své cviˇc´ıc´ı), jako praktick´ y statistik s mnoha zkuˇsenostmi a v neposledn´ı ˇradˇe jako nesm´ırnˇe schopn´ y, ochotn´ y a férov´ y ˇclovˇek. Cen´ım si vˇsech tˇech mnoha hodin konzultac´ı o to v´ıc, ˇze mi byly vˇenov´ any nesm´ırnˇe vyt´ıˇzen´ ym ˇclovˇekem. Bylo mi aˇz s podivem, kolik r˚ uzn´ ych ˇcinnost´ı pan docent zvládá. Jednou pˇricházel s rol´ı pap´ır˚ u pod paˇz´ı se slovy Projekt rekonstrukce v Karl´ınˇe, ” Ferda Mravenec, práce vˇseho druhu!“ Jindy zase pˇrekládal na stole své pracovny ˇstosy s r˚ uzn´ ymi u ´ koly Tak kde Vás mám!“ Snad pro to velké pracovn´ı ” vyt´ıˇzen´ı, snad pro pocit, ˇze to bádán´ı je aˇz pˇr´ıliˇs aplikované, jsem obˇcas mohla slyˇset To v´ıte, já mnoho doktorand˚ u nevedl.“ Mysl´ım si, ˇze to je velká ˇskoda. ” A pˇrála bych jeˇstˇe alespoˇ n jednomu doktorandovi tohoto v´ yteˇcného ˇskolitele. Nezb´ yvá mi neˇz závˇerem tohoto pˇr´ıspˇevku podˇekovat panu docentovi za vˇsechen ˇcas, kter´ y mi vˇenoval, i za trpˇelivost, kterou se mnou mˇel bˇehem celého mého studia, a popˇrát oslavenci mnoho zdrav´ı, ˇstˇest´ı, a spokojenosti do dalˇs´ıch let.

Reference [1] Zvára K. (2003) Reliabilita mˇeˇren´ı aneb bacha na Cronbacha. Informaˇcn´ı ˇ e Statistické Spoleˇcnosti 13(2), 13–20. bulletin Cesk´ [2] Martinková P., Zvára K. (2007) Reliability in the Rasch model. Kybernetika 43(3), 315–326. [3] Commenges D., Jacqmin H. (1994): The intraclass correlation coefficient distribution-free definition and test. Biometrics 50(2), 517–526.

4

VOLBA REGRESNÍHO MODELU HOW TO CHOSE REGRESSION MODEL Jiˇ r´ı Andˇ el Adresa: MFF UK, KPMS, Praha E-mail : [email protected] Abstract This contribution concentrates on typical errors connected with the choice of the regression model. Most frapant erros are illustrated using two examples. The first one shows influence of the graphical representation of the data. The second one shows how important is not to neglect the additional information about the data and their genesis. All calculations were done using the program R.

1.

´ Uvod

V tomto pˇr´ıspˇevku je pojednáno o chybách, které se dˇelaj´ı pˇri volbˇe regresn´ıho modelu. Tyto chyby jsou ilustrovány na dvou numerick´ ych pˇr´ıkladech. V prvn´ım z nich se posuzuje vliv grafického znázornˇen´ı dat na konstrukci modelu. Ve druhém pˇr´ıkladˇe je poukázáno na d˚ uleˇzitost vyuˇzit´ı dodateˇcné informace o datech. V´ ypoˇcty jsou provádˇeny pomoc´ı programu R, kter´ y lze z´ıskat na adrese http://www.R-project.org/.

2.

Volba modelu zaloˇ zen´ a na grafick´ em zn´ azornˇ en´ı dat

Grafy ve statistice hraj´ı velmi d˚ uleˇzitou u ´ lohu. Everitt (2005) na str. 16 cituje v´ yrok pˇrevzat´ y z publikace Chambers a kol. (1983): . . . there is no statistical ” tool that is as powerful as a well-chosen graph“ 1 . Zd˚ uraznˇeme, ˇze mezi autory poslednˇe citované knihy jsou tak slavn´ı statistici jako je Cleveland ˇci Tukey. Odhaduje se, ˇze se roˇcnˇe tiskne asi 1012 statistick´ ych graf˚ u. Jedn´ım z d˚ uvod˚ u grafického znázornˇen´ı dat je to, ˇze je ˇclovˇek schopen vyˇc´ıst z nich zákonitosti. Plat´ı vˇsak varován´ı Carla Sagana: Humans are good at discerning subtle ” patterns that are really there, but equally so at imagining them when they are altogether absent.“ 2 V tabulce 1 jsou uvedena data, která budeme analyzovat. P˚ uvod a skuteˇcn´ y mechanismus vzniku tˇechto dat je znám a bude uveden pozdˇeji pro porovnán´ı s dosaˇzen´ ymi v´ ysledky. Ostatnˇe i kdyby napˇr´ıklad v´ yzkumn´ık sdˇelil, ˇze 1 Z´ ˇ adn´ y

jin´ y statistick´ y n´ astroj nen´ı tak mocn´ y jako spr´ avnˇ e zvolen´ y graf. dobˇre dok´ aˇ z´ı rozezn´ avat subtiln´ı z´ akonitosti, kter´ e tam opravdu jsou, ale zrovna tak dobˇre si je dok´ aˇ z´ı pˇredstavit, i kdyˇ z tam v˚ ubec nejsou. 2 Lid´ e

5

tˇreba nezávisle promˇenná udává koncentraci hexametyléntetram´ınu a závisle promˇenná koncentraci pentaerytritolu, asi by to vˇetˇsinˇe z nás nepˇrineslo v´ıc informace neˇz to, ˇze xi jsou hodnoty nezávisle promˇenné a yi jsou hodnoty závisle promˇenné. Poznamenejme, ˇze v tabulce 1 jsou uvedeny zaokrouhlené hodnoty. Dalˇs´ı v´ ypoˇcty byly provedeny s p˚ uvodn´ımi daty, která byla prezentována na v´ıc desetinn´ ych m´ıst. i xi yi

1 2.38 2.89

2 1.03 3.18

3 0.19 0.89

4 0.49 3.30

5 2.52 2.24

6 0.11 1.00

7 0.46 2.42

8 0.28 0.17

9 1.39 2.53

10 0.03 0.01

Tab. 1. Data, která je tˇreba statisticky analyzovat.

0.5

1.0

1.5

2.0

2.5

0.0

0.5

1.0

1.5

2.0

x

Kvadr. funkce

Kubic. funkce

2.5

2.0 1.0 0.0

0.0

1.0

y

2.0

3.0

x

3.0

0.0

y

2.0 0.0

1.0

y

2.0 0.0

1.0

y

3.0

Lin. funkce

3.0

Body

0.0

0.5

1.0

1.5

2.0

2.5

0.0

0.5

x

1.0

1.5

2.0

2.5

x

Obr. 1. Data a regresn´ı funkce. Tato data jsou zn´ azornˇena na obr´ azku 1, kde jsou také prezentov´ any grafy nˇekter´ ych regresn´ıch funkc´ı. V´ ysledky, které se t´ ykaj´ı v´ ypoˇctu regresn´ı pˇr´ımky, jsou:

6

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.1900 0.4855 2.451 0.0399 * x 0.7558 0.3886 1.945 0.0877 . Residual standard error: 1.079 on 8 degrees of freedom Multiple R-Squared: 0.321, Adjusted R-squared: 0.2361 F-statistic: 3.782 on 1 and 8 DF, p-value: 0.08772

9 8

1 0 −1.5

Fitted values

0.0

0.4

0.8

Cook’s distance

9

0.5 1.0 1.5 2.0 2.5 3.0 3.5

0.0 0.1 0.2 0.3 0.4 0.5

Cook’s distance plot

4

1.2

−0.5 0.0 0.5 1.0 1.5

Theoretical Quantiles

Scale−Location plot Standardized residuals

9

8

0.5 1.0 1.5 2.0 2.5 3.0 3.5

8

4

−1

4

2

Normal Q−Q plot Standardized residuals

0.0 0.5 1.0 1.5 −1.0

Residuals

Residuals vs Fitted

9

4 8

2

Fitted values

4

6

8

10

Obs. number

Obr. 2. Diagnostické grafy ke kvadratické regresi. Regresn´ı koeficient sice nen´ı statisticky signifikantn´ı na bˇeˇzné hladinˇe 5 %, protoˇze jeho p-hodnota je 0.088, ale data sp´ıˇs odpov´ıdaj´ı kvadratické regresi. V´ ysledky kvadratické regrese jsou Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.2786 0.4948 0.563 0.5910 x 4.0411 1.2475 3.239 0.0143 * I(x^2) -1.2865 0.4751 -2.708 0.0303 * Residual standard error: 0.8062 on 7 degrees of freedom Multiple R-Squared: 0.6684, Adjusted R-squared: 0.5736 F-statistic: 7.054 on 2 and 7 DF, p-value: 0.02100

7

Zde je na hladinˇe 5 % v´ yznamn´ y lineárn´ı i kvadratick´ y ˇclen, takˇze bychom se mohli pˇriklonit k tomu, ˇze dat˚ um odpov´ıdá kvadratická regrese. Poznamenejme, ˇze v pˇr´ıpadˇe kubické regrese bude signifikantn´ı jen lineárn´ı ˇclen, kdeˇzto ani kvadratick´ y ani kubick´ y ˇclen signifikantn´ı nebudou. To nadále svˇedˇc´ı ve prospˇech kvadratické regrese. Pˇridáme jeˇstˇe diagnostické grafy (viz obrázek 2), jeˇz nasvˇedˇcuj´ı tomu, ˇze regresn´ı model odpov´ıdá dat˚ um. Na druhé stranˇe vˇsak kvadratická funkce uvedená na obrázku 1 nen´ı monotónn´ı. Pokud bychom vˇedˇeli, ˇze má j´ıt napˇr. o r˚ ustovou kˇrivku, monotónie by se mˇela nutnˇe vyˇzadovat. Pro ilustraci zde uvedeme jednu málo známou r˚ ustovou kˇrivku c−x lp(x, a, b, p, c) = a − bp ln 1 + exp , p která se naz´ yvá linear-plateau regression function (ˇcesky by se snad mohlo ˇr´ıci line´ arn´ı regresn´ı funkce se stabiln´ı hladinou). Graf této funkce pˇripom´ıná dvˇe navazuj´ıc´ı pˇr´ımky. Jedna z nich je rostouc´ı a druhá konstantn´ı. Parametry této regresn´ı funkce maj´ı následuj´ıc´ı interpretaci

lp(x, p = 0.1)

0

10 0

lp(x, p = 1)

20

hodnota závisle promˇenné v bodˇe zmˇeny, smˇernice rostouc´ı pˇr´ımky, hodnota nezávisle promˇenné v bodˇe zmˇeny, hladkost pˇrechodu mezi obˇema pˇr´ımkami.

10

a ... b ... c ... p ...

20

• • • •

0

10 x

20

0

10 x

20

Obr. 3. Pr˚ ubˇeh lp(x) s parametry a=20, b=2, p=1, c=10 (vlevo) a s parametry a=20, b=2, p=0.1, c=10 (vpravo). Proloˇzen´ı této funkce naˇsimi daty vedlo k v´ ysledku a 2.708

b p c 5.9282 0.000694 0.498

Body a proloˇzená funkce jsou zobrazeny na obrázku 4. 8

3.0 2.0 0.0

1.0

yy

0.0

0.5

1.0

1.5

2.0

2.5

xx Obr. 4. Funkce lp(x) proloˇzená metodou nejmenˇs´ıch ˇctverc˚ u. Je vˇsak na ˇcase uvést, jak byla v´ ychoz´ı data z´ıskána. Byla generována na poˇc´ıtaˇci jako nezávislé náhodné veliˇciny. Pˇritom xi ∼ N(1, 1), yi ∼ N(2, 1). Nastaven´ı generátoru náhodn´ ych ˇc´ısel pomoc´ı pˇr´ıkazu set.seed(1203) bylo provedeno z toho d˚ uvodu, ˇze tuto konstantu pouˇz´ıvá ve sv´ ych ilustrac´ıch Everitt (2005). Proˇc tedy doˇslo k tak signifikantn´ımu prokázán´ı nesprávného modelu? D˚ uvodem m˚ uˇze b´ yt nˇekterá z následuj´ıc´ıch pˇr´ıˇcin. • Generátor nen´ı dostateˇcnˇe kvalitn´ı. • Pˇri statistickém hodnocen´ı se pracuje s urˇcitou hodnotou pravdˇepodobnosti chyby prvn´ıho druhu, nejˇcastˇeji to je 0.05. Poˇc´ıtá se tedy s t´ım, ˇze zhruba jednou ve dvaceti pˇr´ıpadech vyjde signifikantnˇe v´ ysledek, kter´ y by ve skuteˇcnosti signifikantn´ı b´ yt nemˇel. Generátory náhodn´ ych ˇc´ısel b´ yvaj´ı podrobnˇe testovány. Pouˇzitá ˇcást generátoru byla v literatuˇre, jak jiˇz bylo v´ yˇse zm´ınˇeno, mnohokrát pouˇzita. Pokud jde o druh´ y argument, je dobré pˇripomenout, ˇze se dosaˇzené p-hodnoty bl´ıˇz´ı hladinˇe 0.01. Z´ıskan´ y signifikantn´ı v´ ysledek je nejsp´ıˇs v´ ysledkem toho, ˇze jsme si hypotézu vytvoˇrili teprve na základˇe z´ıskan´ ych dat. To je principem ˇcinnosti naz´ yvané data mining“. Ta vede k vytváˇren´ı hypotéz o modelu, kter´ ym se ” data ˇr´ıd´ı. Statistické ovˇeˇren´ı modelu se vˇsak mus´ı provádˇet na zcela nov´ ych datech. Poˇrizován´ı dat b´ yvá v experimentáln´ıch vˇedách nákladné a ˇcasovˇe nároˇcné. Z tohoto d˚ uvodu se nˇekdy obˇe fáze rozboru, tedy jak data mi” ning“, tak i statistické ovˇeˇrován´ı, provádˇej´ı na témˇz souboru dat. T´ım se snadno mohou prokázat zákonitosti, které v˚ ubec neexistuj´ı. To jsme na v´ yˇse uvedeném umˇelém pˇr´ıkladˇe pˇredvedli.

9

3.

Upˇ resnˇ en´ı modelu pomoc´ı dodateˇ cn´ e informace

Van Belle (2002) uvád´ı následuj´ıc´ı statistick´ y pˇr´ıklad. Pˇredstavme si, jak Galileo zkoumá vztah ˇcasu a délky volného pádu. Z urˇcité v´ yˇsky h na vˇeˇzi v Pise pouˇst´ı tˇeˇzkou dˇelovou kouli a zjiˇst’uje dobu t, po kterou koule padá k zemi. V´ ysledky jsou uvedeny v tabulce 2. h 10 10 15 15 20

t 1.8 1.2 1.6 1.7 2.2

h 20 25 25 30 30

t 2.2 2.2 2.2 2.7 2.2

h 35 35 40 40 45

t 2.7 3.0 2.7 2.5 2.9

h 45 50 50 55 55

t 2.8 2.6 3.0 3.3 3.7

Tab. 2. V´ yˇska h v metrech a doba pádu t v sekundách. Analyzujme nejprve závislost h na t bˇeˇzn´ ymi regresn´ımi metodami, aniˇz bychom brali v u ´ vahu znalost vzorc˚ u pro voln´ y pád nebo nˇekteré dalˇs´ı informace.

30

h

0

10

10

20

20

30

h

40

40

50

50

primka parabola

1.5

2.0

2.5

3.0

3.5

0

t

1

2

3

4

t

Obr. 5. Galileova data (vlevo) a lineárn´ı a kvadratická regrese (vpravo). Pokud proloˇz´ıme regresn´ı pˇr´ımku, dostaneme Estimate Std. Error t value Pr(>|t|) (Intercept) -21.734 6.040 -3.598 0.00206 ** t 22.046 2.387 9.235 2.99e-08 *** Residual standard error: 6.32 on 18 degrees of freedom Multiple R-Squared: 0.8257, Adjusted R-squared: 0.8161 F-statistic: 85.29 on 1 and 18 DF, p-value: 2.995e-08 V´ ysledkem je rovnice regresn´ı pˇr´ımky s = −21.734 + 22.046t, která je znázornˇena na obrázku 5 vpravo. Oba parametry regresn´ı pˇr´ımky jsou signifikantn´ı. 10

Provedeme Durbin˚ uv-Watson˚ uv test a dostaneme lag Autocorrelation D-W Statistic p-value 1 0.304 1.271 0.046 Alternative hypothesis: rho != 0 V´ ysledek je signifikantn´ı, coˇz signalizuje poruˇsen´ı pˇredpoklad˚ u regresn´ı anal´ yzy. Proloˇz´ıme kvadratickou regresn´ı funkci a dostaneme (Intercept) t I(t^2)

Estimate Std. Error t value Pr(>|t|) -21.967 18.596 -1.181 0.254 22.251 15.558 1.430 0.171 -0.042 3.165 -0.013 0.990

Residual standard error: 6.503 on 17 degrees of freedom Multiple R-Squared: 0.8257, Adjusted R-squared: 0.8052 F-statistic: 40.28 on 2 and 17 DF, p-value: 3.551e-07 Z´ıskali jsme kvadratickou regresi s = −21.9668 + 22.2505t − 0.0421t2. Jej´ı graf je znázornˇen na obrázku 5 vpravo a prakticky se pˇrekr´ yvá s grafem regresn´ı pˇr´ımky. To je zˇrejmé i z porovnán´ı parametr˚ u. Je pˇrekvapuj´ıc´ı, ˇze ˇzádn´ y z parametr˚ u kvadratické regresn´ı funkce nen´ı signifikantn´ı. Pro kontrolu provedeme opˇet Durbin˚ uv-Watson˚ uv test s v´ ysledkem lag Autocorrelation D-W Statistic p-value 1 0.3043 1.272 0.026 Alternative hypothesis: rho != 0 Test vyˇsel signifikantnˇe, coˇz se rovnˇeˇz dalo ˇcekat vzhledem k tomu, ˇze d´ıky shodˇe regresn´ı pˇr´ımky a regresn´ı kvadratické funkce jsou rezidua v obou pˇr´ıpadech prakticky stejná. Nyn´ı vezmeme v u ´ vahu, ˇze za nulov´ y ˇcas mus´ı b´ yt dráha volného pádu také rovna nule. Proto znázorn´ıme Galileova data i se zd˚ uraznˇen´ ym bodem (0,0), kter´ ym mus´ı kaˇzdá regresn´ı funkce procházet (viz obrázek 5 vpravo a obrázek 6 vlevo). Nejdˇr´ıv zase proloˇz´ıme pˇr´ımku a m´ ame t

Estimate Std. Error t value Pr(>|t|) 13.695 0.713 19.21 6.6e-14 ***

Residual standard error: 8.065 on 19 degrees of freedom Multiple R-Squared: 0.9511, Adjusted R-squared: 0.9485 F-statistic: 369.2 on 1 and 19 DF, p-value: 6.594e-14 11

Rovnice této regresn´ı pˇr´ımky je s = 13.6949t. Pak proloˇz´ıme regresn´ı kvadratickou funkci bez absolutn´ıho ˇclenu Estimate Std. Error t value Pr(>|t|) 4.204 2.972 1.414 0.174 3.482 1.069 3.256 0.004 **

t I(t^2)

Ta má tedy rovnici s = 4.204t + 3.482t2 . Koeficient u lineárn´ıho ˇclenu nen´ı signifikantn´ı. Kromˇe toho dnes jiˇz v´ıme, ˇze plat´ı s=

g 2 t , 2

kde g = 9.81 m/sec2 je zemské zrychlen´ı. Oba d˚ uvody vedou k proloˇzen´ı kvadratické regrese bez absolutn´ıho i bez lineárn´ıho ˇclenu. T´ım z´ıskáme Estimate Std. Error t value 4.966 0.215 23.15

I(t^2)

Pr(>|t|) 2.19e-15 ***

Residual standard error: 6.745 on 19 degrees of freedom Multiple R-Squared: 0.9658, Adjusted R-squared: 0.964 F-statistic: 536.1 on 1 and 19 DF, p-value: 2.191e-15

30

40

50

primka parabola par. bez lin. clenu

0

10

20

h

30 0

10

20

h

40

50

T´ım jsme dostali rovnici s = 4.9656t2. Tu m˚ uˇzeme porovnat s teoretickou závislost´ı, která zn´ı s = 4.905t2. Vˇsechny tˇri posledn´ı regresn´ı funkce jsou uvedeny na obrázku 6 vpravo. Interval spolehlivosti s koeficientem spolehlivosti 0.95 pro koeficient u kvadratického ˇclenu je [4.516692; 5.414459]. To znamená, ˇze interval spolehlivosti pro g je [9.033; 10.829].

0

1

2

3

4

0

t

1

2

3

4

t

Obr. 6. Galileova data (vlevo) a regrese procházej´ıc´ı poˇcátkem (vpravo).

12

Ve skuteˇcnosti vˇsak lze oˇcekávat, ˇze dráha s byla stanovena pˇresnˇe, zat´ımco ˇcas t byl stanoven s chybou. Proto by byla na m´ıstˇe závislost q √ t = g2 s. Pokud proloˇz´ıme tuto regresn´ı funkci, dostaneme

Coefficients: Estimate Std. Error t value Pr(>|t|) sq 0.441755 0.009832 44.93 <2e-16 *** Residual standard error: 0.2507 on 19 degrees of freedom Multiple R-Squared: 0.9907, Adjusted R-squared: 0.9902 F-statistic: 2019 on 1 and 19 DF, p-value: < 2.2e-16

t

0

1

2

3

4

Regresn´ı funkce je znázornˇena na obrázku 7. Interval spolehlivosti pro √ koeficient pˇ r i s je [0.4211758, 0.4623348]. Skuteˇcná hodnota tohoto koeficip p entu je 2/g = 0.4515236. Z toho, ˇze známe interval spolehlivosti pro 2/g, dostaneme, ˇze interval spolehlivosti pro g je [9.357; 11.275].

0

10

20

30

40

50

h

Obr. 7. Regrese ˇcasu na vzdálenosti.

Podˇ ekov´ an´ı: Pˇr´ıspˇevek vznikl za pomoci grantu MSM 0021620839. Reference [1] Belle van G. (2002) Statistical Rules of Thumb. Wiley, New York. [2] Everitt B. (2005) An R and S-PLUS Companion to Multivariate Analysis. Springer-Verlag, London. [3] Chambers J. M., Cleveland W. S., Kleiner B. and Tukey P. A. (1983) Graphical Methods for Data Analysing. Belmont, CA, Wadsworth.

13

ˇ ÍMACÍ ZKOUSKY ˇ PRIJ NA MFF UK Z MATEMATIKY V ROCE 2007 ENTRY EXAMS FROM MATHEMATICS AT MFF UK IN 2007 Jiˇ r´ı Andˇ el, Jarom´ır Antoch Adresa: MFF UK, KPMS, Praha E-mail : {jiri.andel,jaromir.antoch}@mff.cuni.cz Abstract This contribution analyze the results of entry exams from mathematics at the faculty of mathematics and physics of the Charles University of Prague.

1.

Zad´ an´ı

Pˇri pˇrij´ımac´ıch zkouˇsk´ ach z matematiky na MFF dne 11. ˇcervna 2007 byla uchazeˇc˚ um zad´ ana p´ısemn´ a pr´ ace s n´ asleduj´ıc´ımi u ´lohami. Jejich ˇreˇsen´ı uv´ ad´ıme v odstavci 3. 1. Urˇcete vˇsechny hodnoty re´ alného parametru p, pro kter´ y m´ a soustava rovnic 7x + 3y = p2

a

5x + 2y = 20

ˇreˇsen´ı x > 0, y > 0. 2. V oboru re´ aln´ ych ˇc´ısel R ˇreˇste rovnici 2·

(10 bod˚ u)

sin x + sin 2x sin x =3· . cos x + cos 2x cos x

(10 bod˚ u) 3. Urˇcete prvn´ı ˇclen a kvocient geometrické posloupnosti, je-li souˇcet prvn´ıch tˇr´ı ˇclen˚ u roven 62 a souˇcet dekadick´ ych logaritm˚ u tˇechto tˇr´ı ˇclen˚ u je roven 3. (15 bod˚ u) 4. Napiˇste rovnice teˇcen paraboly (y − 3)2 = 16(x + 3), které proch´ azej´ı bodem [−3, −1].

(15 bod˚ u)

Upozornˇ en´ı: U kaˇzdé u ´lohy je nutno uvést cel´ y postup ˇreˇsen´ı, nestaˇc´ı napsat pouze v´ ysledky1 . Uveden´ y poˇcet bod˚ u je maxim´ aln´ı poˇcet, kter´ y m˚ uˇzete za danou u ´lohu z´ıskat. 1 Poznamenejme, ˇ ze tento poˇ zadavek silnˇ e omezuje moˇ znost pouˇ zit´ı programu Mathematica, kter´ e je diskutov´ ano v odstavci 4.

14

2.

Hodnocen´ı v´ ysledk˚ u

Celkem bylo odevzdáno 658 p´ısemek. Pro struˇcnost budeme prvn´ı u ´ lohu oznaˇcovat jako ex1, druhou ex2 atd.

2.1.

Hodnocen´ı jednotliv´ ych u ´loh

ˇ Cetnostn´ ı histogramy a krabicové grafy v´ ysledk˚ u jednotliv´ ych u ´ loh jsou na obrázku 1. V´ ysledek m˚ uˇze ˇctenáˇri pˇripadat ponˇekud zvláˇstn´ı, zvláˇstˇe pak ve srovnán´ı s obrázkem 2, letitá zkuˇsenost prvn´ıho z autor˚ u vˇsak ˇr´ıká, ˇze s podobn´ ymi v´ ysledky se setkal prakticky kaˇzdoroˇcnˇe. ex 1

ex 2

300

300

200

200

100

100

0

1

2

3

4

5 6 7 pocet bodu ex 3

8

9

0

10

300

300

200

200

100

100

0

5

10 pocet bodu

1

2

0

15

3

4

5

5 6 7 pocet bodu ex 4

8

9

10 pocet bodu

10

15

15 10 5 0 ex1

ex2

ex3

ex4

ˇ Obr. 1. Cetnostn´ ı histogramy a krabicové grafy u ´ loh ex1 – ex4. ex1 Min. : 0.00 1st Qu.: 5.00 Median : 8.00 Mean : 6.99 3rd Qu.:10.00 Max. :10.00

ex2 Min. : 0.00 1st Qu.: 1.00 Median : 3.00 Mean : 3.52 3rd Qu.: 6.00 Max. :10.00

ex3 Min. : 0.00 1st Qu.: 3.00 Median :11.00 Mean : 9.32 3rd Qu.:15.00 Max. :15.00

15

ex4 Min. : 0.00 1st Qu.: 1.00 Median : 4.00 Mean : 4.81 3rd Qu.: 7.00 Max. :15.00

u ´ loha pr˚ umˇer smˇer. odchylka

ex1 6.99 3.25

ex2 3.52 2.99

ex3 9.32 5.87

ex4 4.81 4.65

Tab. 1. Popisné statistické charakteristiky jednotliv´ ych u ´ loh.

2.2.

Hodnocen´ı celkov´ eho v´ ysledku

Celkov´ y v´ ysledek pˇrij´ımac´ı zkouˇsky z matematiky je dán souˇctem bod˚ u za vˇsechny ˇctyˇri u ´ lohy. Popisné statistické charakteristiky tohoto souˇctu jsou Min. 1st Qu. 0.00 15.00

Median 25.00

Mean 24.64

St. dev. 12.34 celkovy pocet bodu

100 80 60 40 20 0 0

10

20 30 celkovy pocet bodu

40

3rd Qu. 34.75

Max. 50.00

50

25

0

50

ˇ Obr. 2. Cetnostn´ ı histogram a krabicov´ y graf celkového v´ ysledku z matematiky. Pr˚ umˇery a smˇerodatné odchylky v´ ysledk˚ u uvádˇené s pˇresnost´ı na jedno desetinné m´ısto v jednotliv´ ych posluchárn´ ach jsou uvedeny v tabulce 2. Krabicov´ y graf celkového v´ ysledku v závislosti na um´ıstˇen´ı uchazeˇc˚ u v posluchárnách je na obrázku 3. Posluchárny jsou seˇrazeny podle zájmu student˚ u o urˇcit´ y typ studia, jejich poˇrad´ı je stejné jak na obr´ azku 3 tak v tabulce 2. Zkratky obor˚ u uvedené v tabulce 2 jsou vysvˇetleny v tabulce 3. 50

40

30

20

10

0 VG6 MIP6 CH1 CH2

S4

S1

S3

S5

S8 FOT ZOO

F1

M1

M2

M4

M5

M6

F2

Obr. 3. Krabicov´ y graf celkov´ ych v´ ysledk˚ u v závislosti na posluchárnách. 16

posluchárna VG6 MIP6 Ch1 Ch2 S4 S1 S3 S5 S8 FOT ZOO F1 M1 M2 M4 M5 M6 F2 Celkem

pozváni 84 33 97 27 44 25 70 72 31 83 72 90 110 25 27 13 17 61 981

pˇriˇsli 61 26 69 16 22 19 50 55 19 63 49 36 83 10 17 7 14 42 658

pr˚ umˇer 26.7 30.0 27.9 28.2 25.1 27.9 19.8 23.6 19.1 20.9 21.2 19.1 26.8 25.6 18.6 32.3 21.2 31.8 24.6

sd 12.71 11.71 11.04 13.14 10.84 10.81 12.40 12.59 9.73 11.45 13.10 12.52 12.37 9.97 12.34 8.96 12.24 8.94 12.34

obor BM - P BM - P BM - P BM - P BM - K BI - P BI - P BI - P BI - P BI - P BI - P BI - K BF - P BF - K MIU, FMU2 MDU FMU duplicity

Tab. 2. Pˇrehled poslucháren. Zkratka BF BI BM FMU FMU2 MDU MIU duplicity P K

Obor bakaláˇri fyziky bakaláˇri informatiky bakaláˇri matematiky uˇcitelstv´ı fyzika — matematika ˇ uˇcitelstv´ı fyzika — matematika pro 2. stupeˇ n ZS uˇcitelstv´ı matematika — deskriptivn´ı geometrie uˇcitelstv´ı matematika — informatika uchazeˇci, kteˇr´ı podali pˇrihl´ aˇsku na v´ıc program˚ u ˇci obor˚ u jen prezenˇcn´ı studium jen kombinované studium

Tab. 3. Zkratky studijn´ıch program˚ u a studijn´ıch obor˚ u.

17

Pˇr´ıpadnou závislost v´ ysledku na zaˇrazen´ı do poslucháren posoud´ıme pomoc´ı anal´ yzy rozptylu. V´ ysledkem je tabulka room Residuals

Df Sum Sq Mean Sq F value Pr(>F) 17 10242 602 4.2937 2.223e-08 *** 640 89799 140

z n´ıˇz vypl´ yvá, ˇze rozd´ıly mezi posluchárnami jsou vysoce signifikantn´ı. Pˇritom Levene˚ uv test na shodnost rozptyl˚ u dáv´ a p-hodnotu 0.31, takˇze shodnost rozptyl˚ u nezam´ıtáme. Pomoc´ı Tukeyovy metody se zjist´ı, ˇze na obvyklé pˇetiprocentn´ı hladinˇe se signifikantnˇe liˇs´ı F2 od M4, S8, F1, S3, FOT, ZOO, a ˇze se kaˇzdá z poslucháren MIP6 a Ch1 signifikatnˇe liˇs´ı od F1 i od S3. Korelaˇcn´ı matice mezi jednotliv´ ymi u ´ lohami je ex1 ex2 ex3 ex4

ex1 1.000 0.388 0.433 0.328

ex2 0.388 1.000 0.431 0.310

ex3 0.433 0.431 1.000 0.349

ex4 0.328 0.310 0.349 1.000

Z n´ı vypl´ yvá, ˇze v´ ysledky jednotliv´ ych u ´ loh jsou kladnˇe korelovány, ale tato korelace nen´ı pˇr´ıliˇs velká. Anal´ yza hlavn´ıch komponent zaloˇzená na korelaˇcn´ı matici dává tyto v´ ysledky Importance of components: Standard deviation Proportion of Variance Cumulative Proportion Loadings: Comp.1 ex1 0.510 ex2 0.504 ex3 0.530 ex4 0.452

Comp.2 -0.217 -0.368 -0.195 0.883

Comp.1 1.457 0.531 0.531

Comp.3 0.732 -0.674

Comp.2 0.845 0.178 0.709

Comp.3 0.782 0.153 0.862

Comp.4 0.743 0.138 1.000

Comp.4 -0.397 -0.395 0.825

Prvn´ı hlavn´ı komponenta odpov´ıdá souˇctu bod˚ u za jednotlivé u ´ lohy. Druhá pak odpov´ıdá rozd´ılu bod˚ u za ˇctvrtou u ´ lohu a prvn´ıch tˇr´ı u ´ loh. Jasnou interpretaci má i tˇret´ı hlavn´ı komponenta, která porovnává pomoc´ı rozd´ılu bod˚ u prvn´ı a druhou u ´ lohu.

18

Anal´ yza hlavn´ıch komponent aplikovaná na kovarianˇcn´ı matici (tedy na nestandardizovaná data) dává Importance of components: Comp.1 Standard deviation 6.693 Proportion of Variance 0.594 Cumulative Proportion 0.594 Loadings: Comp.1 ex1 -0.287 ex2 -0.254 ex3 -0.812 ex4 -0.441

Comp.2

-0.496 0.867

Comp.3 0.785 0.488 -0.304 -0.231

Comp.2 4.070 0.220 0.813

Comp.3 2.869 0.109 0.923

Comp.4 2.417 0.077 1.000

Comp.4 -0.547 0.835

Zde m˚ uˇzeme prvn´ı hlavn´ı komponentu vynásobit faktorem −1. Vid´ıme, ˇze nejvˇetˇs´ı váhu má tˇret´ı u ´ loha, dalˇs´ı nejvˇetˇs´ı váhu má ˇctvrtá u ´ loha.

3.

ˇ sen´ı Reˇ 1. Jelikoˇz x = 60 − 2p2 , y = 5p2 − 140 maj´ı b´ yt kladná, proto 28 < p2 < 30. Vyhovuj´ı právˇe vˇsechny hodnoty p, pro nˇeˇz plat´ı √ √ √ √ √ √ 2 7 < |p| < 30, tj. p ∈ (− 30, − 28) ∪ ( 28, 30). 2. Rovnici uprav´ıme na tvar 2 sin x cos x(1 + 2 cos x) = 3 sin x(cos x + 2 cos2 x − 1), odkud sin x = 0 nebo 2 cos2 x + cos x − 3 = 0. 1 cos x = ր ց − 3 nevyhovuje 2

x ∈ lπ, l ∈ Z

x = 2kπ, k ∈ Z, avˇsak pro liché l je cos lπ = −1, cos 2lπ = 1, jmenovatel prvn´ıho zlomku by se rovnal nule. Rovnici vyhovuj´ı právˇe jen hodnoty x = 2kπ, k celé ˇc´ıslo. 19

3. Má platit a1 (1 + q + q 2 ) = 62 a

3 log a1 + 3 log q = 3,

odkud a1 · q = 10.

Vylouˇcen´ım a1 dostaneme pro q rovnici 5q 2 − 26q + 5 = 0 s koˇreny ´ 5, 15 , k nim dostaneme a1 = 2, a1 = 50. Uloha má právˇe dvˇe ˇreˇsen´ı: {a1 = 2, q = 5} a {a1 = 50, q = 15 }. 4. Jednou teˇcnou je pˇr´ımka x = −3, rovnici druhé teˇcny hledáme v smˇernicovém tvaru y = k(x+3)−1. Dosazen´ım dostaneme pro x kvadratickou rovnici (k = 0 nevyhovuje) k 2 x2 + 2(3k 2 − 4k − 8)x + 9k 2 − 24k − 32 = 0. Jej´ı diskriminant se rovná nule pouze pro k = −1, takˇze druhá teˇcna má rovnici x + y + 4 = 0.

4.

M˚ uˇ ze student˚ um pomoci Mathematica“? ”

Studenti si ke zkouˇsce mohli pˇrinést jakékoliv pom˚ ucky, vˇcetnˇe pˇrenosného poˇc´ıtaˇce a libovolného programového vybaven´ı. Pˇredpokládejme, ˇze mˇeli nainstalován program Mathematica a ˇze s n´ım um´ı alespoˇ n trochu zacházet; nepˇredpokládáme nicménˇe ˇzádnou pˇrehnanou znalost“ tohoto programu. ” Pod´ıvejme se, zda a jak nám takov´ yto program m˚ uˇze pomoci pˇrenést se pˇres u ´ skal´ı pˇrij´ımac´ıho p´ısemky. Pˇ r´ıklad 1. Zde se zdá b´ yt pˇrirozené pouˇz´ıt pˇr´ıkaz Solve urˇcen´ y pro ˇreˇsen´ı systém˚ u rovnic. Nap´ıˇseme-li Solve[{7 x + 3 y == p^2, 5 x + 2 y == 20}, {x, y}] dostaneme jako v´ ysledek x → −2 p2 − 30 , y → 5 p2 − 28

To sice pˇr´ıklad 1 plnˇe neˇreˇs´ı, m˚ uˇze nám ale usnadnit hledán´ı definitivn´ıho ˇreˇsen´ı. Pokud si student uvˇedom´ı, ˇze m´ısto Solve m˚ uˇze pouˇz´ıt pˇr´ıkaz Reduce, tj. napsat napˇr´ıklad Reduce[{7x+3y == p^2 && 5x+2y == 20 && x>0 && y>0}, {p,x,y}]

20

jako v´ ysledek dostane √ √ − 30 < ℜ(p) < −2 7 ∧ ℑ(p) = 0 ∧ x = 60 − 2ℜ(p)2 ∨

√ √ 2 7 < ℜ(p) < 30 ∧ ℑ(p) = 0 ∧ x = 60 − 2ℜ(p)2

!

∧y =

1 (20 − 5x) 2

odkud jiˇz hledané ˇreˇsen´ı vyˇc´ıst“ lze. ” Pˇ r´ıklad 2. Pouˇzijeme-li opˇet pˇrirozen´ y“ pˇr´ıkaz pro ˇreˇsen´ı rovnic ” Solve[2 (Sin[x] + Sin[2 x])/(Cos[x] + Cos[2 x]) == 3 Sin[x]/Cos[x], x] dostaneme obratem ˇreˇsen´ı 3 3 {x → 0}, x → − cos−1 − , x → cos−1 − 2 2 a hláˇsku Solve:Inverse functions are being used by Solve, so some solutions may not be found; use Reduce for complete solution information. More ... Zvˇedav´ y student jistˇe nápovˇedu zkus´ı. Nap´ıˇse-li Reduce[2 (Sin[x] + Sin[2 x])/(Cos[x] + Cos[2 x]) == 3 Sin[x]/Cos[x], x] dostane c1 ∈ Z ∧

x = 2πc1 ∨ x = 2πc1 − 2i tanh−1 −1

∨ x = 2πc1 + 2i tanh

√ 5

!

√ 5

odkud jiˇz hledané ˇreˇsen´ı jistˇe vyˇc´ıst“ lze. ” Nen´ı nám nicménˇe jasné, kolik student˚ u si uvˇedom´ı, ˇze ArcCos[-3/2] sice vrát´ı ArcCos[-3/2], ale ˇze na druhé stranˇe N[ArcCos[-3/2]] vrát´ı 3.14159-0.962424 i. 21

Pˇ r´ıklad 3. Pouˇzijeme-li opˇet pˇrirozen´ y pˇr´ıkaz pro ˇreˇsen´ı rovnic Solve[{a + a q + a q^2 == 62, Log[10, a] + Log[10, a q] + Log[10, a q^2] == 3}, {a, q}]] dostaneme jako v´ ysledek (

ff n o  1 a → 2, q → 5 , a → 50, q → , 5 s ( √ √ √ !3/2 155i 3 181 1271i 3 25 801 1271i 3 1 “ 2077 801 + − − − − − − a→ 31 2 2 8 50 50 4 50 50 v s √ !” √ √ ) u 651 u 801 1271i 3 41 31i 3 1 801 1271i 3 − − it3 − − ,q → − + + − , 8 50 50 20 20 2 50 50 s ( √ √ √ !3/2 155i 3 181 1271i 3 25 801 1271i 3 1 “ 2077 801 a→ + + − − + − − 31 2 2 8 50 50 4 50 50 v s √ !” √ √ ) u 651 u 1271i 3 41 31i 3 1 1271i 3 801 801 + it3 − − ,q → − + − − − , 8 50 50 20 20 2 50 50 s ( √ √ √ !3/2 1 “ 2077 155i 3 181 801 1271i 3 25 801 1271i 3 a→ − + − + + − + 31 2 2 8 50 50 4 50 50 v s u √ !” √ √ ) 801 801 651 u 1271i 3 41 31i 3 1 1271i 3 − − it3 − + ,q → − − − + , 8 50 50 20 20 2 50 50 s ( √ √ √ !3/2 801 1 “ 2077 155i 3 181 1271i 3 25 801 1271i 3 a→ − − − + − − + 31 2 2 8 50 50 4 50 50 v s √ !” √ √ )) u 651 u 801 1271i 3 41 31i 3 1 801 1271i 3 + it3 − + ,q → − − + − + 8 50 50 20 20 2 50 50

Nalezen´ı správného ˇreˇsen´ı necháme na ˇctenáˇri. Pˇ r´ıklad 4. Zde nám Mathematica asi ˇreˇsen´ı jen tak sama nenab´ıdne. V kaˇzdém pˇr´ıpadˇe nám vˇsak m˚ uˇze pomoci alespoˇ n zkontrolovat naˇse ruˇcn´ı“ v´ ypoˇc” ty a malovat za nás grafy. Dobˇre nám jiˇz znám´ y pˇr´ıkaz Solve zkontroluje, zda um´ıme vyˇreˇsit rovnici paraboly. Skuteˇcnˇe, nap´ıˇseme-li Solve[(y - 3)^2 == 16(x + 3), y] dostaneme jako v´ ysledek √ √ y →3−4 x+3 , y → 4 x+3+3 22

Nyn´ı jiˇz nezb´ yvá nic jiného, neˇz si pˇredchoz´ı ˇreˇsen´ı namalovat a vz´ıt rozum do hrsti. Zat´ımco teˇcna x = −3 nás asi napadne ihned, k nalezen´ı druhé teˇcny uˇz pˇreci jenom potˇrebujeme v´ıce. Nakonec si ˇreˇsen´ı namalujeme, napˇr´ıklad pomoc´ı res = Solve[(y - 3)^2 == 16(x + 3), y]; res = {res, {y -> -x - 4}}; o1 = Plot[Evaluate[y /. res], {x, -3, 3}, PlotStyle -> {{Thickness[0.01], GrayLevel[0.75]}}]; o2 = Graphics[{Thickness[0.01], GrayLevel[0.75], Line[{{-3, -7}, {-3, 13}}]}]; Show[o1, o2]; Dostaneme tak to, co oˇcekáváme, totiˇz

10

5 -2 -3

-1

1

2

3

-5

5.

Post scriptum

Pro jistou dobu se jedná o posledn´ı pˇrij´ımac´ı zkouˇsky na MFF UK, nebot’ Akademick´ y senát MFF UK na návrh veden´ı fakulty schválil, ˇze v roce 2008 se odborné pˇrij´ımac´ı zkouˇsky na bakaláˇrské studium konat nebudou. Bl´ıˇze viz http://www.mff.cuni.cz/studium/uchazec/prijriz.htm

23

´ Í BIMODALITY NA ZAKLAD ´ ˇ POSUZOVAN E HISTOGRAMU JUDGEMENT ON BIMODALITY BASED ON HISTOGRAM ˇarka Doˇ S´ sl´ a Adresa: MFF UK, KPMS, Praha E-mail : [email protected] Abstract In this paper we try to respond the following question, i.e., Does two-modal histogram really indicate two modal distribution? The response is, according to the expectation, negative. We will show the reasons for and several alternative approaches enabling to decide more reliably on the number of modes.

´ Uvod Normovan´ y histogram je zˇrejmˇe nejznámˇejˇs´ım odhadem hustoty náhodného v´ ybˇeru. Jelikoˇz je jeho konstrukce velmi jednoduchá a intuitivn´ı, patˇr´ı mezi obl´ıbené nástroje statistické anal´ yzy dat. Jeho grafické znázornˇen´ı nám pomáhá z´ıskat lepˇs´ı pˇredstavu o chován´ı zkoumaného rozdˇelen´ı. Avˇsak vˇzdy bychom mˇeli m´ıt na pamˇeti, ˇze vlastnosti a tvar histogramu mohou b´ yt interpretovány a pˇreneseny na jeho teoretick´ y protˇejˇsek“ pouze pˇrimˇeˇrenˇe, ” s pˇrihlédnut´ım k moˇzn´ ym náhodn´ ym odchylkám. Bimodáln´ı rozdˇelen´ı ve vˇetˇsinˇe pˇr´ıpad˚ u vzniká jako smˇes dvou jednovrcholov´ ych rozdˇelen´ı. V situaci, kdy pracujeme s daty pocházej´ıc´ımi ze smˇesi dvou rozdˇelen´ı, m˚ uˇzeme m´ıt tendenci bimodalitu jist´ ym zp˚ usobem oˇcekávat. Pokud nav´ıc histogram vykazuje dvˇe maxima, zdá se b´ yt naˇse podezˇren´ı potvrzeno. V následuj´ıc´ım textu se pod´ıváme na to, jak je to s posuzován´ım bimodality rozdˇelen´ı na základˇe histogramu. Indikuje-li histogram dva vrcholy, m˚ uˇze b´ yt pro nás tento jev dostateˇcn´ ym d˚ ukazem“, ˇze je odpov´ıdaj´ıc´ı hus” tota bimodáln´ı? Zˇrejmˇe nikoliv. Ukáˇzeme, proˇc m˚ uˇze b´ yt takov´ y postup velmi zavádˇej´ıc´ı. Nakonec pop´ıˇseme alternativn´ı moˇznost, kterou lze vyuˇz´ıt, chceme-li rozhodnout o poˇctu vrchol˚ u zkoumaného rozdˇelen´ı.

24

1.

Smˇ esi dvou rozdˇ elen´ı a jejich bimodalita

4

0.4 −4

0 2 (b)

4

6

0.0

0 2 (a)

0.2

0.4 0.2 −4

0.0

0.0

0.2

0.4

Jiˇz v u ´ vodu jsme pouˇzili v´ yraz smˇes“. I kdyˇz je tento pojem zˇrejmˇe vˇseobecnˇe ” znám, pˇripomeˇ nme pro pˇresnost, ˇze smˇes´ı dvou rozdˇelen´ı s hustotami f1 a f2 rozum´ıme rozdˇelen´ı s hustotou f , pro kterou plat´ı f = pf1 + qf2 , kde p, q ∈ [0, 1], p + q = 1. V takovém pˇr´ıpadˇe je f smˇes´ı sloˇzek (komponent) f1 a f2 a parametry p, q jsou váhy tˇechto sloˇzek.

−4

0 2 4 6 (c)

Obr. 1. Smˇesi dvou hustot f1 a f2 normáln´ıch rozdˇelen´ı N(0, 1) a N(µ, 1) s váhami p = q = 21 pro (a) µ = 1, (b) µ = 2 a (c) µ = 3. Pˇr´ıklady smˇes´ı dvou normáln´ıch rozdˇelen´ı jsou graficky znázornˇeny na obrázku 1. Pro tento jednoduch´ y pˇr´ıpad smˇes´ı N(0, 1) a N(µ, 1) s váhami uˇzeme vidˇet, ˇze tvar v´ ysledné hustoty evidentnˇe z´ avis´ı na volbˇe p = q = 12 m˚ parametru µ, tj. na vzdálenosti vrchol˚ u sloˇzek. Leˇz´ı-li tyto vrcholy velmi bl´ızko sebe, je hustota smˇesi unimodáln´ı. Postupn´ ym vzdalován´ım komponent, tj. zvˇetˇsován´ım µ, se hustota f pomalu zploˇst’uje“, aˇz po pˇrekroˇcen´ı ” urˇcité meze vznikne rozdˇelen´ı bimodáln´ı. Toto naˇse pozorován´ı lze zobecnit a jednoduˇse shrnout, ˇze smˇes dvou unimodáln´ıch hustot je bimodáln´ı pouze v pˇr´ıpadˇe, ˇze jsou vrcholy jej´ıch sloˇzek dostateˇcnˇe“ vzdáleny. Pˇresnˇe zfor” mulované podm´ınky pro unimodalitu je moˇzné nalézt napˇr. v [3] ˇci [4]. Jak tedy v praxi rozhodnout o poˇctu vrchol˚ u rozdˇelen´ı daného náhodného v´ ybˇeru? Pˇredpokládejme, ˇze v´ıme, ˇze naˇse data pocházej´ı z nˇejaké smˇesi dvou rozdˇelen´ı. V situaci, ˇze známe váhy a parametry jej´ıch sloˇzek nebo jejich odhady, m˚ uˇzeme o unimodalitˇe, resp. bimodalitˇe, rozhodnout na základˇe citovan´ ych teoretick´ ych kritéri´ı. Bohuˇzel, vˇetˇsinou vˇsak máme k dispozici pouze data a parametry komponent nejsme schopni odhadnout. Zm´ınˇená kritéria pak nelze aplikovat, a tak pˇricház´ı na ˇradu histogram. . .

2.

Histogramy a posuzov´ an´ı jejich bimodality

Je vˇseobecnˇe známo, ˇze tvar histogramu závis´ı na parametrech, z nichˇz nˇekteré sami, ˇcasto sp´ıˇse subjektivnˇe, vol´ıme. Poˇcet tˇr´ıd ˇci jejich ˇs´ıˇrka ovlivˇ nuj´ı

25

0

0

5

10

20

15

hladkost a v´ yskyt pˇr´ıpadn´ ych vrchol˚ u. Kromˇe toho, ˇc´ım v´ıce pozorován´ı máme k dispozici, t´ım je histogram hladˇs´ı a pˇresnˇejˇs´ı“. ” Vˇedomi si vˇsech tˇechto skuteˇcnost´ı, vykresl´ıme histogram naˇseho v´ ybˇeru. Odhlédnˇeme nyn´ı od moˇznosti mˇenit poˇcet jeho tˇr´ıd a pˇredpokládejme, ˇze jsme pouˇzili optimáln´ı volbu dle nˇekterého ze znám´ ych kritéri´ı (napˇr. Sturgesova). Na základˇe vytvoˇreného histogramu se snaˇz´ıme z´ıskat pˇredstavu o tvaru skuteˇcného rozdˇelen´ı naˇsich dat: Mohlo by se jednat o normáln´ı ˇci jiné unimodáln´ı rozdˇelen´ı? Nebo bude naopak hustota sp´ıˇse dvouvrcholová?

−2

−1

0

1

2

−2

0

(a)

1

2

3

(b)

Obr. 2. Histogramy náhodn´ ych v´ ybˇer˚ u simulovan´ ych z rozdˇelen´ı N(0, 1) o rozsahu 100 pozorován´ı s nastaven´ım (a) set.seed(89) a (b) set.seed(59). Na chvilku jeˇstˇe poˇckejme se sv´ ym rozhodnut´ım a pod´ıvejme se na následuj´ıc´ı moˇznou situaci. Na obrázku 2(a) je znázornˇen histogram v´ ybˇeru simulovaného z normáln´ıho rozdˇelen´ı N(0, 1) o rozsahu 100 pozorován´ı1. Tento histogram má dvˇe lokáln´ı maxima, tj. dva vrcholy. Vyvodili bychom z tohoto ˇ bychom jej jevu, ˇze zkouman´ y v´ ybˇer pocház´ı z bimodáln´ıho rozdˇelen´ı? Ci sp´ıˇse pˇripsali jakési nepˇresnosti“ odhadu? Nebo bychom se soudit neodvá” ˇzili? Odpovˇed’ asi nen´ı jednoznaˇcná. V tomto konkrétn´ım pˇr´ıkladˇe jsme vˇedˇeli, ˇze jde o v´ ybˇer generovan´ y z normáln´ıho rozdˇelen´ı, a proto bychom se zˇrejmˇe zdrˇzeli unáhlen´ ych soud˚ u. Co ale v pˇr´ıpadˇe naˇsich reáln´ ych dat? Problémem je, ˇze v situaci, kdy v´ıme, ˇze data pocházej´ı ze smˇesi dvou jednovrcholov´ ych rozdˇelen´ı, bimodalitu jaksi oˇcekáváme. A tak se na základˇe dvouvrcholového histogramu m˚ uˇzeme snadno nechat pˇresvˇedˇcit o tom, ˇze je zkoumané rozdˇelen´ı bimodáln´ı, a uˇcinit tak moˇzná chybn´ y závˇer. Posuzován´ı tvaru histogramu je evidentnˇe záleˇzitost subjektivn´ıho rázu. Nav´ıc, ne kaˇzdé jeho lokáln´ı maximum vn´ımáme jako potenciáln´ı vrchol“ ” 1 Simulace

provedena v programu R s nastaven´ım set.seed(89).

26

hustoty. Velmi ˇcasto jsou ˇcetnosti nˇekolika prostˇredn´ıch tˇr´ıd histogramu v´ yraznˇe vyˇsˇs´ı neˇz ˇcetnosti zb´ yvaj´ıc´ıch tˇr´ıd. Pˇri zkoumán´ı modality si pak vˇs´ımáme pouze vrchol˚ u indikovan´ ych v tˇechto prostˇredn´ıch tˇr´ıdách a pˇr´ıpadná dalˇs´ı lokáln´ı maxima pomineme. V pˇr´ıpadˇe histogramu na obr´ azku 2(b) budeme zˇrejmˇe brát v u ´ vahu pouze vrcholy, které indikuje na intervalech (−1, −0.5] a (0, 0.5] a lokáln´ı maximum ve tˇr´ıdˇe (−2, −1.5] budeme chápat sp´ıˇse jako náhodnou odchylku“. ” Proto se nadále omez´ıme pouze na studován´ı nˇekolika prostˇredn´ıch tˇr´ıd histogram˚ u a budeme sledovat maxima indikovaná pouze zde. Ostatn´ı tˇr´ıdy nebudeme brát pˇri posuzován´ı bimodality v u ´ vahu.

3.

Pˇ r´ıpad rozdˇ elen´ı s tup´ ym“ vrcholem ”

U nˇekter´ ych smˇes´ı nejsou vrcholy jejich sloˇzek vzdáleny natolik, aby byla v´ ysledná hustota dvouvrcholová. M˚ uˇze tak nastat pˇr´ıpad, kdy je sice rozdˇelen´ı unimodáln´ı, ale tento jeho jedin´ y vrchol je velmi neostr´ y“. Tak je tomu ” napˇr´ıklad u smˇesi (b) na obrázku 1, jej´ıˇz hustota je na jakémsi okol´ı svého vrcholu témˇeˇr konstantn´ı. V následuj´ıc´ım textu se zamˇeˇr´ıme na taková unimodáln´ı rozdˇelen´ı s tup´ ym“ vrcholem a pod´ıváme se na odhad pravdˇepodob” nosti, s jakou se histogram v´ ybˇeru z takového rozdˇelen´ı jev´ı jako bimodáln´ı. Pro ilustraci vezmˇeme nejprve konkrétn´ı smˇes dvou normáln´ıch rozdˇelen´ı N(0, 1) a N(2, 1) s váhami p = q = 21 (viz obrázek 1(b)) a uvaˇzujme náhodnou veliˇcinu X s t´ımto rozdˇelen´ım. Zamˇeˇrme se pouze na interval [0, 2]. Rozdˇel´ımeli jej na ˇsest stejnˇe velk´ ych podinterval˚ u I1 , . . . , I6 , je pravdˇepodobnost, ˇze X padne do intervalu Ii , pˇribliˇznˇe stejná pro vˇsechna i = 1, . . . , 6. Podm´ınˇené pravdˇepodobnosti P(X ∈ Ii |X ∈ [0, 2]), i = 1, . . . , 6, jsou postupnˇe 0.1630, 0.1680, 0.1690, 0.1690, 0.1680 a 0.1630. V pˇr´ıpadˇe, ˇze se zamˇeˇr´ıme na veliˇcinu X pouze na intervalu [0, 2], tj. podm´ın´ıme-li jej´ı rozdˇelen´ı jevem X ∈ [0, 2] , dostaneme tak pˇribliˇznˇe rovnomˇerné rozdˇelen´ı na [0, 2]. Podobnou u ´ vahu m˚ uˇzeme snadno aplikovat na rozdˇelen´ı s tup´ ym“ vr” cholem obecnˇe. Docház´ıme k následuj´ıc´ımu závˇeru: Jelikoˇz jsme se pˇri posuzován´ı histogramu omezili pouze na zkoumán´ı nˇekolika jeho prostˇredn´ıch tˇr´ıd, staˇc´ı nám d´ıvat se na danou hustotu jen na nˇejakém okol´ı jej´ıho vrcholu. Rozdˇelen´ı, jehoˇz vrchol je dostateˇcnˇe tup´ y“, m˚ uˇzeme na tomto in” tervalu dostateˇcnˇe dobˇre aproximovat rovnomˇern´ ym rozdˇelen´ım. Okamˇzitˇe se tud´ıˇz nab´ız´ı následuj´ıc´ı zjednoduˇsen´ı celého problému: Najdeme-li odhad pravdˇepodobnosti, s jakou se histogram v´ ybˇeru z rovnomˇerného rozdˇelen´ı jev´ı jako bimodáln´ı, budeme jej pak moci pouˇz´ıt i pro jakékoliv unimodáln´ı rozdˇelen´ı s tup´ ym“ vrcholem. ”

27

4.

Histogramy v´ ybˇ er˚ u z rovnomˇ ern´ eho rozdˇ elen´ı

Kdy tedy chápeme histogram jako bimodáln´ı? Zcela intuitivnˇe to bude v pˇr´ıpadˇe, ˇze má právˇe dva vrcholy“. Pˇripomeˇ nme, ˇze v tomto momentˇe se jiˇz ” d´ıváme pouze na nˇekolik, ˇreknˇeme N , prostˇredn´ıch tˇr´ıd histogramu a ˇcetnosti ostatn´ıch necháváme stranou. Bimodáln´ı tak bude takov´ y histogram, kter´ y má mezi tˇemito N tˇr´ıdami právˇe dvˇe maxima“, tj. splˇ nuje podm´ınku: ” Oznaˇcme zvolen´ ych N prostˇredn´ıch tˇr´ıd histogramu jako 1, 2, . . . , N a jejich odpov´ıdaj´ıc´ı ˇcetnosti n1 , n2 , . . . , nN , kde ni ≥ 0 pro vˇsechna i = 1, . . . , N . ˇ Dodefinujme n0 = nN +1 = 0. Rekneme, ˇze dan´ y histogram je bimod´ aln´ı, jestliˇze existuj´ı pˇrirozená ˇc´ısla M1 , M2 , M3 taková, ˇze plat´ı 0 < M1 < M2 < M3 < N + 1 a ni−1 ≤ ni ni−1 ≥ ni

pro i = 1, . . . , M1 , pro i = M1 + 2, . . . , M2 ,

nM1 > nM1 +1 , nM2 < nM2 +1 ,

pro i = M2 + 2, . . . , M3 ,

nM3 > nM3 +1 ,

ni−1 ≥ ni

pro i = M3 + 2, . . . , N + 1.

ni−1 ≤ ni

V takovém pˇr´ıpadˇe budeme i pˇr´ısluˇsnou posloupnost ˇc´ısel {ni }N yvat i=1 naz´ bimodáln´ı. Permutaci ˇc´ısel 1, . . . , N nazveme bimod´ aln´ı permutac´ı, jestliˇze je tato posloupnost ˇc´ısel bimodáln´ı. Pro histogramy v´ ybˇer˚ u z rovnomˇerného rozdˇelen´ı m˚ uˇzeme dokázat následuj´ıc´ı tvrzen´ı popisuj´ıc´ı jejich chován´ı2: Je-li X1 , . . . , XM n´ ahodný výbˇer z rovnomˇerného rozdˇelen´ı na intervalu [a, b], a, b ∈ R, a N ∈ N, potom pro M → ∞ se pravdˇepodobnost, s jakou je histogram tohoto n´ ahodného výbˇeru s N tˇr´ıdami bimod´ aln´ı, bl´ıˇz´ı k pravdˇepodobnosti, ˇze je n´ ahodn´ a permutace ˇc´ısel 1, . . . , N bimod´ aln´ı. V tabulce 1 jsou uvedeny ˇcetnosti bimodáln´ıch permutac´ı ˇc´ısel 1, . . . , N pro N = 4, . . . , 8. Vyˇceteme z n´ı napˇr´ıklad, ˇze mezi permutacemi ˇc´ısel 1, . . . , 6 je pˇribliˇznˇe 57.8 % bimodáln´ıch. Podle v´ yˇse uvedeného tvrzen´ı m˚ uˇzeme hodnotu 0.578 brát jako odhad pravdˇepodobnosti, s jakou histogram náhodného v´ ybˇeru pocházej´ıc´ıho z rovnomˇerného rozdˇelen´ı R[0, 1] s ˇsesti tˇr´ıdami vykazuje dva vrcholy. Jestliˇze tedy obecnˇe bereme pˇri posuzován´ı modality v u ´ vahu jen prostˇredn´ıch ˇsest tˇr´ıd histogramu, lze hodnotu 0.578 brát i jako odhad pravdˇepodobnosti, s jakou se nám histogram v´ ybˇeru z rozdˇelen´ı s tup´ ym“ ” vrcholem jev´ı jako bimodáln´ı. 2 D˚ ukaz

uveden´ eho tvrzen´ı viz [1].

28

ˇ Cetnosti bimodáln´ıch permutac´ı N 4 5 6 poˇcet vˇsech permutac´ı 24 120 720 poˇcet bimodáln´ıch permutac´ı 16 88 416 pod´ıl bimodáln´ıch permutac´ı 0.6 0.73 0.57

7 5040 1824 0.362

8 40320 7680 0.191

Tab. 1. Poˇcty bimodáln´ıch permutac´ı ˇc´ısel 1, . . . , N, N = 4, . . . , 8. Jak tedy m˚ uˇzeme vidˇet, tato pravdˇepodobnost rozhodnˇe nen´ı zanedbatelná. Proto posuzován´ı bimodality rozdˇelen´ı na základˇe histogramu nen´ı ani v nejmenˇs´ım vhodné a mohlo by velmi ˇcasto vést k nesprávn´ ym a zavádˇej´ıc´ım závˇer˚ um.

5.

Kdyˇ z ne histogram, tak co tedy?

Co tedy pouˇz´ıt v situaci, kdy potˇrebujeme zjistit, zda naˇse data pocházej´ı z rozdˇelen´ı s jedn´ım ˇci v´ıce vrcholy? Histogram zjevnˇe nen´ı dobr´ y nástroj. Naˇstˇest´ı existuj´ı jiné moˇzné postupy. V programu R je implementován dip test (viz [2]), pomoc´ı kterého m˚ uˇzeme testovat, zda dan´ y náhodn´ y v´ ybˇer pocház´ı z unimodáln´ıho rozdˇelen´ı. Testovou statistikou je tzv. dip, kter´ y je jakousi m´ırou vzdálenosti empirické distribuˇcn´ı funkce daného v´ ybˇeru a tˇr´ıdy vˇsech unimodáln´ıch distribuˇcn´ıch funkc´ı. Funkce dip z knihovny diptest spoˇc´ıt´ a pro naˇse data dip statistiku a porovnán´ım jej´ı hodnoty s pˇr´ısluˇsn´ ym empirick´ ym kvantilem (tabulka qDiptab z téˇze knihovny) pak m˚ uˇzeme uˇcinit závˇer, zda na zvolené testovac´ı hladinˇe zam´ıtáme nulovou hypotézu unimodality ˇci nikoliv. Pˇri konstrukci testu je nutné zvolit konkrétn´ı unimod´ aln´ı rozdˇelen´ı za nulové hypotézy. Zˇrejmˇe vˇsak neexistuje takové, pro nˇeˇz by byla dip statistika stochasticky vˇetˇs´ı neˇz pro vˇsechna ostatn´ı unimodáln´ı rozdˇelen´ı. Proto se vol´ı za nulové hypotézy rovnomˇerné rozdˇelen´ı. Tato volba je velmi jednoduchá, ale vede k testu, kter´ y je asymptoticky konzervativn´ı (viz [2]). Pro ilustraci jsou v tabulce 2 uvedeny relativn´ı ˇcetnosti v´ ybˇer˚ u generovan´ ych z rovnomˇerného a normáln´ıho rozdˇelen´ı, pro nˇeˇz byla hypotéza unimodality dip testem na hladinˇe 0.05 zam´ıtnuta. Pro v´ ybˇery z normáln´ıho rozdˇelen´ı se zdá b´ yt chyba prvn´ıho druhu znatelnˇe menˇs´ı neˇz 0.05 a pro rostouc´ı rozsah se dokonce bl´ıˇz´ı k 0. Tato skuteˇcnost potvrzuje asymptotické vlastnosti ukázané v [2] a zm´ınˇenou konzervativnost testu.

29

rozdˇelen´ı rovnomˇerné R[0, 1] normáln´ı N(0, 1)

50 0.04995 0.00292

rozsah v´ ybˇeru 100 1000 0.04867 0.04834 0.00109 0.00004

5000 0.04946 0

0.2 −2

−1

0

^ (a) xL

1

xÛ

0.0

0.0

0.2

0.4

Tab. 2. Relativn´ı ˇcetnost v´ ybˇer˚ u, pro nˇeˇz byla hypotéza unimodality dip testem na hladinˇe 0.05 zam´ıtnuta: V prvn´ım ˇrádku jsou v´ ysledky dip testu pro 100 000 náhodn´ ych v´ ybˇer˚ u simulovan´ ych z rovnomˇerného rozdˇelen´ı, druh´ y ˇrádek odpov´ıdá v´ ybˇer˚ um generovan´ ym z normáln´ıho rozdˇelen´ı N(0, 1). Poˇcáteˇcn´ı nastaven´ı set.seed(1023). Mohlo by nás zaj´ımat, jak dip test posoud´ı rozdˇelen´ı v´ ybˇer˚ u, jejichˇz histogramy z obr´ azku 2 jsme diskutovali v pˇredchoz´ıch odstavc´ıch. Pˇripomeˇ nme, ˇze jde o data simulovaná z normáln´ıho rozdˇelen´ı N(0, 1) o rozsahu 100 pozorován´ı a jejich histogramy vykazovaly v´ıce neˇz jeden vrchol. V prvn´ım pˇr´ıpadˇe jsme simulace provedli s nastaven´ım set.seed(89) a histogram indikoval dvˇe maxima. Dip statistika spoˇcten´ a pro tento v´ ybˇer vycház´ı 0.0408. Jelikoˇz kritická hodnota na hladinˇe v´ yznamnosti 0.05 pro rozsah v´ ybˇeru 100 je 0.0511, dip test hypotézu unimodality nezam´ıtá. Na obrázku 3(a) je vykreslen histogram a neparametrick´ y odhad hustoty obdrˇzen´ y funkc´ı density. Dále je znázornˇen odhad (ˆ xL , x Û ) intervalu, ve kterém by se mˇel nacházet vrchol rozdˇelen´ı. Pro druh´ y v´ ybˇer, generovan´ y z N(0, 1) s nastaven´ım set.seed(59), vycház´ı dip roven 0.0256, takˇze stejnˇe jako v pˇredchoz´ım pˇr´ıpadˇe hypotézu unimodality na hladinˇe 0.05 nezam´ıtáme. Grafické znázornˇen´ı viz obrázek 3(b). V obou pˇr´ıpadech nám tedy dip test dává na naˇsi otázku o unimodalitˇe rozdˇelen´ı správnou odpovˇed’“. ”

2

−2

0

1

^ ^ (b) xL xU

2

Obr. 3. Histogram, odhad hustoty (funkce density) a modáln´ıho intervalu rozdˇelen´ı náhodného v´ ybˇeru o rozsahu 100 pozorován´ı simulovaného z N(0, 1) v programu R s nastaven´ım (a) set.seed(89) a (b) set.seed(59). 30

3

Pˇri zkoumán´ı histogram˚ u jsme se zab´ yvali pˇredevˇs´ım smˇesmi dvou unimodáln´ıch rozdˇelen´ı. Pod´ıvejme se proto nyn´ı na to, jak dip test funguje v takov´ ych pˇr´ıpadech. K tomuto u ´ˇcelu jsme v programu R simulovali náhodné v´ ybˇery ze smˇesi dvou normáln´ıch rozdˇelen´ı N(0, 1) a N(µ, 1) s váhami p = q = 12 s r˚ uzn´ ymi rozsahy a volbami parametru µ a sledovali jsme, jaké v´ ysledky dává dip test. Nen´ı obt´ıˇzné ukázat (viz [4]), ˇze smˇes dvou normáln´ıch rozdˇelen´ı N(0, 1) a N(µ, 1) s váhami p = q = 12 je unimodáln´ı pro |µ| ≤ 2 a bimodáln´ı pro |µ| > 2. Tud´ıˇz bychom zˇrejmˇe pro µ > 2 oˇcekávali zam´ıtnut´ı nulové hypotézy unimodality. V tabulce 3 jsou uvedeny v´ ysledky dip testu pro 100 000 generovan´ ych v´ ybˇer˚ u s rozsahy M = 100, 1000 a 5000 pro volby µ = 2, 2.5, 2.8, 3, 3.5 a iniciáln´ı nastaven´ı set.seed(1023) v programu R. Vid´ıme, ˇze pˇri rostouc´ım rozsahu v´ ybˇeru roste i s´ıla testu. Ale napˇr´ıklad pro µ = 2.5 a pro rozsah 5000 pozorován´ı jsme stále u 70 % v´ ybˇer˚ u hypotézu unimodality nezam´ıtli, pˇrestoˇze se jednalo o data z bimodáln´ıho rozdˇelen´ı. Pˇri pouˇzit´ı dip testu se tak dostáváme do opaˇcného problému neˇz tomu bylo u histogram˚ u. Na základˇe nich jsme mohli s nezanedbatelnou pravdˇepodobnost´ı povaˇzovat unimodáln´ı rozdˇelen´ı za bimodáln´ı. Naopak, pomoc´ı dip testu bychom mohli bimodáln´ı rozdˇelen´ı mylnˇe oznaˇcit jako unimodáln´ı. Rozhodnˇe je vˇsak vhodnˇejˇs´ı pˇri posuzován´ı bimodality pouˇz´ıt formáln´ı dip test neˇz dˇelat nepodloˇzené závˇery na základˇe histogramu indikuj´ıc´ıho dva moˇzné vrcholy.

µ 2.0 2.5 2.8 3.0 3.5

rozsah v´ ybˇeru 100 1000 0.00458 0.00061 0.02092 0.04888 0.05634 0.42790 0.06856 0.82634 0.38187 0.99998

M 5000 0.00008 0.30210 0.99584 1 1

Tab. 3. V´ ysledky dip testu pro 100 000 náhodn´ ych v´ ybˇer˚ u simulovan´ ych ze smˇesi dvou normáln´ıch rozdˇelen´ı N(0, 1) a N(µ, 1) s váhami p = q = 12 pro r˚ uzné hodnoty µ a r˚ uzné rozsahy v´ ybˇer˚ u M . V tabulce jsou uvedeny relativn´ı ˇcetnosti v´ ybˇer˚ u, pro nˇeˇz byla hypotéza unimodality zam´ıtnuta. Pro µ = 2 je daná smˇes unimodáln´ı a pro µ > 2 je smˇes bimod´ aln´ı. Vˇzdy iniciáln´ı nastaven´ı set.seed(1023) v programu R.

31

6.

Re´ aln´ y pˇ r´ıklad — ˇ ziv´ y“ histogram ”

0.00

0.03

Na zaˇcátku naˇseho textu, v ˇcásti 2., jsme diskutovali o subjektivn´ım postoji pˇri posuzován´ı histogram˚ u. Ukázali jsme, ˇze dan´ y dvouvrcholov´ y histogram na nás ve dvou r˚ uzn´ ych situac´ıch m˚ uˇze p˚ usobit zcela jin´ ym dojmem. V prvn´ım pˇr´ıpadˇe jsme vˇetˇs´ı poˇcet vrchol˚ u automaticky pˇripsali nepˇresnosti odhadu, jelikoˇz jsme vˇedˇeli, ˇze data poch´ azej´ı z normáln´ıho rozdˇelen´ı. Naopak ve druhém pˇr´ıpadˇe jsme mˇeli data pocházej´ıc´ı ze smˇesi dvou rozdˇelen´ı, a tak jsme dva vrcholy moˇzná i trochu oˇcek´ avali a nechali se proto pˇresvˇedˇcit o bimodalitˇe odpov´ıdaj´ıc´ı hustoty. Pˇr´ıkladem takového jednán´ı, kdy byl tvar histogramu shledán jako dostateˇcn´ y d˚ ukaz bimodality, je následuj´ıc´ı situace pocházej´ıc´ı ze ˇclánku [5]. Bˇehem jedné pˇrednáˇsky ze statistiky seˇradil vyuˇcuj´ıc´ı své studenty na ˇskoln´ım hˇriˇsti do skupin dle jejich v´ yˇsky a zkonstruoval tak jak´ ysi ˇziv´ y“ ” histogram. Jeho tvar p˚ usobil bimodálnˇe“ (viz obrázek 4(a)), a tak bylo ” zábavnou formou student˚ um ilustrováno, ˇze rozdˇelen´ı lidské v´ yˇsky, jakoˇzto smˇes dvou unimodáln´ıch rozdˇelen´ı, má dva vrcholy. Bezpochyby se jednalo o velmi zdatn´ y didaktick´ y poˇcin. Avˇsak problém je v tom, ˇze takové tvrzen´ı nen´ı pravdivé. Autoˇri ˇclánku [5] se pod´ıvali na rozdˇelen´ı v´ yˇsky student˚ u v´ıce teoreticky. Na základˇe dat pocházej´ıc´ıch z ˇsetˇren´ı státn´ıho zdravotn´ıho centra USA odhadli parametry rozdˇelen´ı v´ yˇsky muˇz˚ u a v´ yˇsky ˇzen v odpov´ıdaj´ıc´ım vˇeku. Aplikac´ı teoretick´ ych kritéri´ı potom zjistili, ˇze v´ ysledné spoleˇcné rozdˇelen´ı v´ yˇsky by mˇelo b´ yt unimodáln´ı, viz obrázek 4(b), a nikoliv bimodáln´ı!

(a)

160

180 (b)

Obr. 4. (a) Struktura ˇzivého“ histogramu student˚ u: Znázornˇené ” teˇcky odpov´ıdaj´ı jednotliv´ ym student˚ um, d´ıvky a chlapci jsou barevnˇe odliˇseni. (b) Hustota rozdˇelen´ı v´ yˇsky student˚ u spoˇctená na základˇe odhadnut´ ych parametr˚ u.

32

Závˇer z celého experimentu je tedy sp´ıˇse rozpaˇcit´ y. M´ısto toho, aby vyuˇcuj´ıc´ı student˚ um ukázal pˇr´ıklad bimodáln´ıho rozdˇelen´ı, dopustil se chyby a sdˇelil jim nepravdivou informaci. Nav´ıc sv´ ym ˇzák˚ um (nechtˇenˇe) pˇr´ımo demonstroval nekorektn´ı postup, kter´ y ho dovedl k nesprávn´ ym závˇer˚ um. A tak m˚ uˇzeme jen doufat, ˇze ˇzádn´ y ze zm´ınˇen´ ych student˚ u nepouˇzije podobnou nepodloˇzenou u ´ vahu pˇri nˇejaké skuteˇcnˇe d˚ uleˇzité anal´ yze dat.

7.

Z´ avˇ er

Závˇerem lze shrnout, ˇze posuzován´ı bimodality ˇci unimodality dané hustoty pouze na základˇe tvaru histogramu m˚ uˇze ˇcasto vést k nesprávn´ ym závˇer˚ um. V situaci, kdy nás skuteˇcnˇe zaj´ımá poˇcet vrchol˚ u zkoumaného rozdˇelen´ı, je vhodnˇejˇs´ı pouˇz´ıt jiné postupy. Rozhodnˇe bychom se nemˇeli nechat ovlivnit naˇsimi oˇcekáván´ımi a dát se strhnout k unáhlen´ ym a nepodloˇzen´ ym soud˚ um, tak jako tomu bylo v uvedeném pˇr´ıkladˇe vyuˇcuj´ıc´ıho a v´ yˇsky jeho student˚ u.

Podˇ ekov´ an´ı: Pˇr´ıspˇevek vznikl za pomoci grantu MSM 0021620839. Reference ˇ (2006) Bimodáln´ı rozdˇelen´ı. Diplomov´ [1] Doˇslá S. a pr´ ace, Univerzita Karlova, Praha. [2] Hartigan J.A., Hartigan P.M. (1985) The dip test of unimodality. Ann. Statist. 13, 70–84. [3] Kemperman J.H.B. (1991) Mixture with a limited number of modal intervals. Ann. Statist. 19, 2120–2144. [4] Robertson C.A., Fryer J.G. (1969) Some descriptive properties of normal mixtures. Skand. Aktuarietidskr. 52, 137–146. [5] Schilling M.F., Watkins A.E., Watkins W. (2002) Is human height bimodal? Amer. Statist. 56, 223–229.

33

´ SSK ˇ ´ STATISTICKY ´ DEN 2007 MIKULA Y Marek Mal´ y ´ Praha Adresa: SZU, E-mail : [email protected] ˇ a statistická spoleˇcnost 6. prosince pˇrednáˇskov´ Rok 2007 zakonˇcila Cesk´ ym semináˇrem v pˇr´ıjemném prostˇred´ı Balb´ınovy poetické hosp˚ udky na Vinohradech v Praze. Asi 25 posluchaˇc˚ u vyslechlo v pr˚ ubˇehu pˇetihodinového programu Mikul´ aˇsského statistického dne osm pˇrednáˇsek, které se dotkly r˚ uzn´ ych aspekt˚ u statistické teorie i praxe. Mezi pˇrednáˇsej´ıc´ı se zam´ıchal i hodn´ y ˇcert, kter´ y podˇelil mal´ ymi dárky vˇsechny posluchaˇce, Mikuláˇs osobnˇe k nám tˇreba zav´ıtá pˇr´ıˇstˇe. P. Praks a P. Zajac pˇripravili pˇrednáˇsku o posuzován´ı spolehlivosti softwaru (PageRank ve statistice). D. Hlubinka se zab´ yval dotazn´ıkov´ ymi nástroji, které jsou ned´ılnou souˇcást´ı práce kaˇzdého statistika pohybuj´ıc´ıho se v aplikac´ıch (O kvalitˇe vyplˇ nov´ an´ı dotazn´ık˚ u v rovn´ıkové Africe), P. Popela se zab´ yval d˚ uleˇzit´ ymi otázkami posuzován´ı naˇs´ı pr´ ace a hodnocen´ım ˇcinnosti vysok´ ych ˇskol (Jak v´ aˇz´ıme vˇedu). Po poledn´ı pˇrestávce ukázal J. Bˇeláˇcek konkrétn´ı aplikace statistiky v prostˇred´ı lékaˇrské fakulty (Jak jsem doloval v datech aneb O u ´plnˇe norm´ aln´ıch regresn´ıch pˇr´ımk´ ach), J. Andˇel ve velmi zaj´ımavé pˇrednáˇsce ilustroval na dvou pˇr´ıkladech konstrukci regresn´ıch model˚ u jednak z pohledu moˇzného vlivu grafického znázornˇen´ı, jednak z pohledu vyuˇzit´ı dodateˇcné informace (Volba regresn´ıho modelu a o chyb´ ach, které se pˇritom dˇelaj´ı), G. Dohnal nám vysvˇetlil, proˇc se v ˇzivotˇe tolik naˇcekáme (Frontové paradoxy), Z. Fabián ve vesele ladˇeném pˇr´ıspˇevku pohovoˇril o váˇzném tématu (Inferenˇcn´ı funkce a parametrické odhady) a závˇerem J. Klaschka na pozad´ı praktické aplikace poukázal na u ´ skal´ı v pˇr´ıstupu lékaˇr˚ u ke statistice (Co je statisticky nejvýznamnˇejˇs´ı? ). Diskuse, která se rozhodnˇe net´ ykala jen semináˇre, n´ ybrˇz i mnoha dalˇs´ıch zaj´ımav´ ych témat statistické komunity, se po semináˇri pˇresunula do pˇrilehlé kavárny. V pr˚ ubˇehu statistického dne mˇeli u ´ˇcastn´ıci v´ yjimeˇcnou moˇznost seˇ e statistické spoleˇcnosti v jej´ı tkat se vˇsemi pˇeti dosavadn´ımi pˇredsedy Cesk´ ˇ sedmnáctileté historii, tedy prof. Andˇelem, prof. Cerm´ akem, ing. Rothem, prof. Antochem a doc. Dohnalem. Nˇekteré z pˇrednáˇsek autoˇri pˇripravili pro publikaci v Informaˇcn´ım bulletinu, takˇze i ti, jimˇz pˇredvánoˇcn´ı shon neumoˇznil chvilku zastaven´ı se statistikou, budou m´ıt moˇznost se s prob´ıran´ ymi tématy seznámit a tˇreba je to podn´ıt´ı k u ´ˇcasti na nˇekteré z dalˇs´ıch akc´ı.

34

´ KONFERENCE A CTVRT ˇ ´ STUDENTSKA E ´ ´ ´ ´ ´ SETKANI NARODNICH STATISTICKYCH ˇ Í V PRAZE SPOLECNOST Gejza Dohnal E-mail : [email protected] Poˇc´ atkem z´ aˇr´ı (4. - 6.9. 2008) probˇehne v Praze dalˇs´ı, v poˇrad´ı jiˇz ˇctvrté setk´ an´ı z´ astupc˚ u n´ arodn´ıch statistick´ ych spoleˇcnost´ı. V posledn´ım ˇc´ısle IB minulého roku jsme V´ as informovali o 3. setk´ an´ı, které se uskuteˇcnilo na podzim 2007 ve Slovinské Ljubljani. Letoˇsn´ı stek´ an´ı bude spojeno s mezin´ aroidn´ı studentskou konferenc´ı o matematické statistice a pravdˇepodobnosti, na n´ıˇz pˇredpokl´ ad´ ame u ´ˇcast student˚ u ˇ ze vˇsech z´ uˇcastnˇen´ ych zem´ı, tj. z Ceska, Mad’arska, Slovenska, Slovinska, Rakouska a Rumunska (skupina V6). Konference bude m´ıt dvˇe sekce, jednu pro studenty ´ cast student˚ magisterského studia a druhou pro doktorandy. Uˇ u na této konferenci bude finanˇcnˇe podpoˇrena jejich n´ arodn´ımi statistick´ ymi spoleˇcnostmi. Pro ˇradu student˚ u by to mohla b´ yt jejich prvn´ı pˇr´ıleˇzitost vystoupit pˇred mezin´ arodn´ım f´ orem. Studenti obou typ˚ u studia (magisterského i postgradu´ aln´ıho) mohou jiˇz ted’ ˇ pos´ılat své pˇrihl´ aˇsky na adresu tajemn´ıka Cesk´ e statistické spoleˇcnosti. Pˇrihl´ aˇska by mˇela obsahovat kromˇe jména studenta a kontaktu i n´ azev pˇr´ıspˇevku, kr´ atkou anotaci, n´ azev ˇskoly, obor, roˇcn´ık a pˇr´ıpadnˇe doporuˇcen´ı vedouc´ıho diplomové pr´ ace ˇci ˇskolitele. Pˇrijaté pˇr´ıspˇevky budou publikov´ any v nˇekterém z periodik, vyd´ avan´ ych statistick´ ymi spoleˇcnostmi skupiny V6.

KONFERENCE ISBIS 2008 Mezin´ arodn´ı spoleˇcnost pro obchodn´ı a pr˚ umyslovou statistiku (ISBIS) poˇr´ ad´ a kaˇzdé dva roky mezin´ arodn´ı symposium, na nˇemˇz vystupuj´ı pˇredn´ı svˇetov´ı experti v uveden´ ych oblastech. Po Severn´ım Qeenslandu, Limˇe a Azorech se bude toto setk´ an´ı konat letos v ˇcervenci v Praze. Symposium probˇehne ve dnech 1. – 4. 7. 2008 v hotelu Andˇel na Sm´ıchovˇe v Praze 5. Hlavn´ımi poˇradateli jsou American Statistical Association, Section on Physical and Engineering Sciences a American Society for Quality, spolupoˇr´ adaj´ıc´ımi organizacemi jsou International Statistical Institute, ˇ European Network of Business and Industry Statistics a v neposledn´ı ˇradˇe i Cesk´ a ˇ statistick´ a spoleˇcnost a Centrum pro jakost a spolehlivost v´ yroby CQR. Clenové vˇsech z´ uˇcastnˇen´ ych organizac´ı, tedy i naˇs´ı spoleˇcnosti, maj´ı slevu na vloˇzném. Hlavn´ı sekce budou vˇenov´ any kvantitativn´ı anal´ yze v bankovnictv´ı, finanˇcnictv´ı a pojiˇst’ovnictv´ı. Pˇripravuj´ı se vˇsak i sekce t´ ykaj´ıc´ı se statistick´ ych metod v ˇr´ızen´ı jakosti, spolehlivosti a anal´ yzy rizik. Jejich seznam, spolu s dalˇs´ımi informacemi a registraˇcn´ım formul´ aˇrem viz http://www.action-m.com/isbis2008/index.php

35

ˇ Výbor CStS, Zpráva o ˇcinnosti v roce 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 ˇ Výbor CStS, Blahopˇrán´ı . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Patr´ıcia Martinkov´ a, Nˇekolik slov o reliabilitˇe sloˇzen´ ych dichotomn´ıch mˇeˇren´ı, aneb doktorandkou pana docenta Zváry . . . . . . . . . . . . . . . . . . . . 3 Jiˇr´ı Andˇel, Volba regresn´ıho modelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Jiˇr´ı Andˇel, Jarom´ır Antoch, Pˇrij´ımac´ı zkouˇsky z matematiky na MFF UK v roce 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 ˇarka Doˇsl´ S´ a, Posuzován´ı bimodality na základˇe histogramu . . . . . . . . . . . . 24 Marek Malý, Mikuláˇssk´ y statistick´ y den 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Gejza Dohnal, Studentská konference a ˇctvrté setkán´ı národn´ıch statistick´ ych spoleˇcnost´ı v Praze . . . . . . . . . . . . . . . . . . . . . . . 35 Konference ISBIS 2008 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

Váˇzené kolegynˇe, váˇzen´ı kolegové, redakce, v´ ybor spoleˇcnosti a organizátoˇri si Vás dovoluj´ı pozvat na Liberecké statistické dny Pr˚ umyslov´ a statistika a chemometrie, které se uskuteˇcn´ı ve dnech 10. – 11. dubna v Liberci. Zájemci o podrobné informace necht’ se obrát´ı na doc. RNDr. Aleˇse Linku, CSc. ([email protected]).

ˇ ISSN 1210 – 8022. Informaˇ cn´ı Bulletin Cesk´ e statistick´ e spoleˇ cnosti vych´ az´ı ˇ ctyˇrikr´ at do roka v ˇ cesk´ em vyd´ an´ı. Pˇr´ıleˇ zitostnˇ e i mimoˇra ´dn´ eˇ cesk´ e a anglick´ eˇ c´ıslo. ´ ˇ Pˇ redseda spoleˇ cnosti: Doc. RNDr. Gejza Dohnal, CSc., UTM FS CVUT v Praze, Karlovo n´ amˇ est´ı 13, 121 35 Praha 2, e-mail: [email protected] ˇ ´ k, DrSc. (pˇredseda), Prof. RNDr. Jarom´ır Antoch, Ediˇ cn´ı rada: Prof. Ing. V´ aclav Cerm a ´ , CSc., Doc. RNDr. Jiˇr´ı Micha ´ lek, CSc., Doc. Ing. Josef Tvrd´ık, CSc., RNDr. Marek Maly ´ , CSc. CSc., Doc. RNDr. Zdenˇ ek Karp´ıˇ sek, CSc. a Prof. Ing. Jiˇr´ı Militky Techniˇ ct´ı redaktoˇ ri: Doc. RNDr. Gejza Dohnal, CSc., [email protected] ˇ´ıˇ a Ing. Pavel Str z, Ph.D., [email protected] Pokyny autor˚ um: FTP: exp.uis.fame.utb.cz; uˇ zivatel: csts; heslo: csts WEB server:

36

Informa ní Bulletin Základní údaje o společnosti. Uplynulý rok byl prvním rokem dvouletého

Recommend Documents