Vybran´ a rozdˇ elen´ı spojit´ ych n´ ahodn´ ych veliˇ cin, deskriptivn´ı statistika Ing. Michael Rost, Ph.D.
Tˇ r´ıdˇ en´ı Z´ akladn´ım zpracov´ an´ım dat je jejich tˇ r´ıdˇ en´ı. Jde o uspoˇ r´ ad´ an´ı z´ıskan´ ych dat, kde volba tˇ r´ıd´ıc´ıho znaku je d´ ana ´ uˇ celem tˇ r´ıdˇ en´ı.
• Dle poˇ ctu tˇ r´ıd´ıc´ıch znak˚ u rozezn´ av´ ame tˇ r´ıdˇ en´ı jednostupˇ nov´ e, dvoustupˇ nov´ e, ˇ ci v´ıcestupˇ nov´ e. • Jde-li o tˇ r´ıdˇ en´ı kategori´ aln´ıho znaku, nebo jedn´ a-li se o numerick´ y znak s mal´ ym poˇ ctem hodnot, lze prov´ adˇ et tzv. tˇ r´ıdˇ en´ı prost´ e. • Je-li tˇ r´ıd´ıc´ım znakem numerick´ a promˇ enn´ a s velk´ ym poˇ ctem hodnot, pak je vhodnˇ ejˇ s´ı prov´ adˇ et intervalov´ e tˇ r´ıdˇ en´ı. S t´ımto souvis´ı ot´ azka volby poˇ ctu interval˚ u. c Rost 2006 °
Volba vhodn´ eho poˇ ctu interval˚ u Volba poˇ ctu interval˚ u je velmi d˚ uleˇ zit´ a, ale neexistuje ˇ z´ adn´ e obecn´ e doporuˇ cen´ı pro jejich urˇ cen´ı.
• Pokud je interval˚ u pˇ r´ıliˇ s mnoho, jsou vˇ etˇ sinou pˇ r´ıliˇ s kr´ atk´ e a informace obsaˇ zen´ e v nich jsou nepˇ rehledn´ e.
• Pokud je jich naopak m´ alo, pak jsou do stejn´ eho intervalu zaˇ razeny zcela odliˇ sn´ e statistick´ e jednotky.
• Vod´ıtkem pro urˇ cen´ı poˇ ctu interval˚ u (k) m˚ uˇ ze b´ yt Sturgesovo pravidlo. To je definov´ ano takto: k = 1 + 3, 3log10n
(1) c Rost 2006 °
ˇ etnosti C V nˇ ekter´ ych pˇ r´ıpadech je vhodn´ e charakterizovat statistick´ y soubor prostˇ rednictv´ım tzv. ˇ cetnost´ı. Zpravidla rozezn´ av´ ame nˇ ekolik druh˚ uˇ cetnost´ı. ♣ Absolutn´ı ˇ cetnost zpravidla ji znaˇ c´ıme prostˇ rednictv´ım symbolu ni a ud´ av´ a kolikr´ at se hodnota xi znaku X vyskytuje v souboru. ♦ Relativn´ı ˇ cetnost pi ud´ av´ a, v jak velk´ e ˇ c´ asti souboru je hodnota znaku X rovna xi ♥ Kumulativn´ı absolutn´ı ˇ cetnost kni ud´ av´ a poˇ cet statistick´ ych jednotek, u nichˇ z byla hodnota statistick´ eho znaku X ≤ xi tj. kni = n1 + n2 + . . . + ni c Rost 2006 °
ˇ etnosti C ♠ Kumulativn´ı relativn´ı ˇ cetnost KPi ud´ av´ a jak´ aˇ c´ ast souboru vykazovala hodnoty X ≤ xi tj. kpi = p1 + p2 + . . . + pi Relativn´ı a kumulativn´ı ˇ cetnosti se poˇ c´ıtaj´ı pouze pokud maj´ı smysl. Pˇ ri urˇ cov´ an´ı mez´ı je tˇ reba volit meze tak, aby nedoch´ azelo k nejasnostem, tj. abychom mohli kaˇ zdou hodnotu jednoznaˇ cnˇ e zaˇ radit do urˇ cit´ eho intervalu.
c Rost 2006 °
ˇ adn´ R´ y term´ın 2005
Body 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 Celkem
ni 27 11 20 15 14 11 22 8 7 3 1 0 0 139
pi 19,424 7,914 14,388 10,791 10,072 7,914 15,827 5,755 5,036 2,158 0,719 0,000 0,000 100,000
kni 27 38 58 73 87 98 120 128 135 138 139 139 139
kp i 19,424 27,338 41,727 52,518 62,590 70,504 86,331 92,086 97,122 99,281 100,000 100,000 100,000 c Rost 2006 °
Z´ akladn´ı charakteristiky souboru Pro lepˇ s´ı pˇ redstavu pouˇ z´ıv´ ame k popisu vlastnost´ı zkouman´ eho jevu urˇ cit´ e charakteristiky - statistiky.
• Statistikami zde rozum´ıme jist´ a ˇ c´ısla, kter´ a jsou nositeli d˚ uleˇ zit´ ych informac´ı o zkouman´ ych jevech. • Zp˚ usob zjiˇ st’ov´ an´ı tˇ echto statistik (charakteristik) je jednoznaˇ cnˇ e d´ an.
c Rost 2006 °
M´ıry polohy Mezi z´ akladn´ı m´ıry polohy patˇ r´ı maximum a minimum.
• Pro veliˇ cinu v mˇ eˇ r´ıtku alespoˇ n ordin´ aln´ım, lze vytvoˇ rit uspoˇ r´ adan´ y soubor z p˚ uvodn´ıho neuspoˇ r´ adan´ eho souboru o velikosti n takto: x(1) ≤ x(2) ≤ · · · ≤ x(l) ≤ · · · ≤ x(n) . • Pak lze snadno zjistit minimum xmin ˇ ci maximum xmax: xmin = x(1)
xmax = x(n)
(2)
c Rost 2006 °
M´ıry polohy charakterizuj´ı obecnou ´ uroveˇ n (polohu) hodnot statistick´ eho znaku. Tyto statistiky lze dˇ elit na pr˚ umˇ ery a ostatn´ı stˇ redn´ı hodnoty. Prvn´ı a nejˇ castˇ eji pouˇ z´ıvanou charakteristikou je prost´ y aritmetick´ y pr˚ umˇ er. Ten je definov´ an takto: n 1 X x ¯= xi , n i=1
(3)
jeho v´ aˇ zen´ a varianta pak jako: k 1 X x ¯= xini . n i=1
(4)
Existuj´ı i dalˇ s´ı m´ıry polohy, ˇ rad´ıc´ı se mezi pr˚ umˇ ery, jsou to pˇ redevˇ s´ım harmonick´ y, geometrick´ y nebo kvadratick´ y pr˚ umˇ er.
c Rost 2006 °
Co je to kvantil? Velmi d˚ uleˇ zit´ ym pojmem ve statistick´ e teorii je pojem kvantilu. Lze jej definovat takto: α100%-n´ım kvantilem x ˜α statistick´ eho znaku X, je takov´ e vhodnˇ e zvolen´ eˇ c´ıslo, pro kter´ e plat´ı, ˇ ze α100% hodnot znaku je menˇ s´ıch nebo rovno hodnotˇ ex ˜α a (1 − α)100% hodnot znaku je vˇ etˇ s´ıch nebo rovno tomuto ˇ c´ıslu. Mezi nejpouˇ z´ıvanˇ ejˇ s´ı kvantily patˇ r´ı: doln´ı kvartil x ˜25, medi´ an x ˜50 a horn´ı kvartil x ˜75. Tyto tˇ ri kvantily rozdˇ eluj´ı uspoˇ r´ adanou ˇ radu dat na zhruba ˇ ctyˇ ri ˇ c´ asti s pˇ ribliˇ znˇ e stejn´ ymi rozsahy. Ve statistick´ e praxi se lze setkat i s decily nebo percentily. c Rost 2006 °
Ostatn´ı stˇ redn´ı hodnoty Pˇ ri charakterizov´ an´ı polohy souboru je nˇ ekdy vhodn´ e vyuˇ z´ıt tzv. medi´ an, kter´ y ud´ av´ a prostˇ redn´ı hodnotu souboru.
• Jde o robustn´ı charakteristiku. V uspoˇ r´ adan´ em souboru x(1) ≤ x(2) ≤ · · · ≤ x(l) ≤ · · · ≤ x(n) mus´ı poˇ cet menˇ s´ıch nebo stejn´ ych hodnot jako medi´ an ˇ cinit alespoˇ n tolik, jako poˇ cet hodnot vˇ etˇ s´ıch ˇ ci stejn´ ych jako medi´ an.
• Pouˇ zit´ı medi´ anu pˇ rich´ az´ı v ´ uvahu jiˇ z u ordin´ aln´ı stupnice. Medi´ an lze definovat takto: x n+1 lich´ e n, ( 2 ) x ˜50 = 1 (x n + x n e n. ( 2 +1) ) sud´ 2 (2)
(5)
c Rost 2006 °
Modus Modem souboru je hodnota x ˆ, kter´ a se v souboru nejˇ castˇ eji opakuje, tj. m´ a nejvˇ etˇ s´ı ˇ cetnost. • Lze rozezn´ avat unimod´ aln´ı, bimod´ aln´ı a multimod´ aln´ı soubory. • Pokud je soubor intervalovˇ e tˇ r´ıdˇ en´ı, pak nelze urˇ cit modus pˇ resnˇ e. Pˇ ribliˇ znou hodnotu modu urˇ c´ıme podle vzorce nxˆ+1 − nxˆ−1 h , x ˆ = xS + 2 2nxˆ − nxˆ+1 − nxˆ−1
(6)
kde nxˆ−1 a nxˆ+1 jsou ˇ cetnosti intervalu kter´ y pˇ redch´ az´ı, resp. n´ asleduje za mod´ aln´ım intervalem. D´ elka a ˇ cetnost mod´ aln´ıho intervalu je oznaˇ cena po ˇ radˇ e symboly h a nxˆ. Stˇ red mod´ aln´ıho intervalu je oznaˇ cen symbolem xS . c Rost 2006 °
Mal´ a pozn´ amka
• Pro z´ısk´ an´ı z´ akladn´ı pˇ redstavy o rozloˇ zen´ı studovan´ eho souboru zpravidla staˇ c´ı uv´ est x ¯, x ˆ, x ˜25, x ˜75 a hodnotu max a min. • V pˇ r´ıpadˇ e multimod´ aln´ıho rozdˇ elen´ı uv´ ad´ıme i jednotliv´ a maxima souboru. • Hodnota modu je znaˇ cnˇ e ovlivnˇ ena variabilitou znaku a to zejm´ ena u menˇ s´ıch v´ ybˇ er˚ u. • U jednovrcholov´ ych rozdˇ elen´ı plat´ı pˇ ribliˇ znˇ e vztah x ˆ = 3˜ x50 − 2¯ x.
(7) c Rost 2006 °
M´ıry variability Dalˇ s´ı d˚ uleˇ zitou vlastnost´ı, je variabilita dat. M´ıry variability urˇ cit´ ym zp˚ usobem charakterizuj´ı promˇ enlivost hodnot.
• M´ıry variability jsou v podstatˇ e dvoj´ıho typu. Prvn´ı z nich se poˇ c´ıtaj´ı pouze z nˇ ekter´ ych hodnot.
• Druh´ a skupina vych´ az´ı naopak ze vˇ sech hodnot, obsaˇ zen´ ych ve studovan´ em souboru.
Nejjednoduˇ sˇ s´ı m´ırou variability je rozpˇ et´ı. Jde o prvn´ı typ mˇ er variability. R = xmax − xmin
(8) c Rost 2006 °
M´ıry variability Dalˇ s´ı m´ırou variability je mezikvartilov´ e rozpˇ et´ı. Je definov´ ano jako rozd´ıl mezi horn´ım a doln´ım kvartilem tj.: IQR = x ˜75 − x ˜25 .
(9)
Takto definovan´ e rozpˇ et´ı vych´ az´ı z cca 50% typick´ ych znak˚ u sledovan´ eho souboru.
c Rost 2006 °
Rozptyl Je jednou z nejd˚ uleˇ zitˇ ejˇ s´ıch charakteristik variability dat. Rozptyl je definov´ an jako aritmetick´ y pr˚ umˇ er ˇ ctverc˚ u odchylek od aritmetick´ eho pr˚ umˇ eru. Z hlediska jeho konstrukce rozezn´ av´ ame n´ asleduj´ıc´ı rozptyly:
n 1 X (xi − x ¯)2 = n i=1
s2 p
k 1 X = (xi − x ¯)2ni n i=1
n 1 X = (xi − x ¯)2 n − 1 i=1
s2 v
k 1 X = (xi − x ¯)2ni n − 1 i=1
s2 p
s2 v
c Rost 2006 °
Smˇ erodatn´ a odchylka Vzhledem k tomu, ˇ ze je rozptyl ˇ spatnˇ e interpretovateln´ y, pouˇ z´ıv´ a se pˇ ri charakterizov´ an´ı rozpt´ ylenosti dat sp´ıˇ se smˇ erodatn´ a odchylka. Ta je definov´ ana jako druh´ a odmocnina rozptylu, tj.: q
σ2
(10)
s2 .
(11)
σ= a v´ ybˇ erov´ a smˇ erodatn´ a odchylka q
s=
c Rost 2006 °
Variaˇ cn´ı koeficient Je relativn´ı m´ırou variability. Pouˇ z´ıv´ ame jej pˇ ri porovn´ av´ an´ı variability statistick´ ych znak˚ u, kter´ e se liˇ s´ı z hlediska m´ıry polohy nebo maj´ı odliˇ sn´ e mˇ ern´ e jednotky. Variaˇ cn´ı koeficient ud´ av´ a z kolika procent se pod´ıl´ı smˇ erodatn´ a odchylka na aritmetick´ em pr˚ umˇ eru. s VX = . (12) x ¯ Hodnotu VX vyjadˇ rujeme nejˇ castˇ eji v procentech.
c Rost 2006 °
M´ıry ˇ sikmosti a ˇ spiˇ catosti ˇ ikmost vyjadˇ S ruje symetriˇ cnost sledovan´ eho rozdˇ elen´ı kolem pr˚ umˇ ern´ e hodnoty. Je-li pozorov´ ano v´ıce mal´ ych hodnot v porovn´ an´ı s vysok´ ymi hodnotami, pak je ˇ sikmost kladn´ a. Je-li naopak pˇ revaha vysok´ ych hodnot v porovn´ an´ı s mal´ ymi hodnotami, tj. po zn´ azornˇ en´ı histogramu m´ a rozdˇ elen´ı souboru prot´ ahl´ y lev´ y konec, je ˇ sikmost z´ aporn´ a. ˇ piˇ S catost pˇ redstavuje relativn´ı strmost ˇ ci plochost rozdˇ elen´ı ˇ cetnost´ı v porovn´ an´ı s norm´ aln´ım rozdˇ elen´ım ˇ cetnost´ı. Kladn´ a ˇ spiˇ catost znamen´ a, ˇ ze se ve sledovan´ em souboru vyskytuj´ı sp´ıˇ se data koncentrovan´ a kolem stˇ redn´ı hodnoty. Tyto charakteristiky lze urˇ cit prostˇ rednictv´ım tˇ ret´ıho a ˇ ctvrt´ eho centr´ aln´ıho momentu. c Rost 2006 °