ŠTATISTIKA
Obsah
Predmet štatistiky ...........................................................................................................
2
Meranie a úrovne merania ..............................................................................................
10
Popisná štatistika ............................................................................................................
13
Jednorozmerné rozdelenie ..............................................................................................
14
Štatistické charakteristiky jednorozmerných rozdelení ………………………………..
17
1
Predmet štatistiky
Keď povieme napr. "životné podmienky obyvateľstva sa značne zlepšili", "produktivita práce v minulom roku vzrástla", "vlaky ešte vždy meškajú", "návštevnosť kín sa znížila", sú to všetko výroky, ktoré majú niečo spoločné: zovšeobecňujú výsledok veľkého počtu pozorovaní, pričom ich platnosť pre pozorovanú kolektivitu ešte neznamená, že musia platiť i v každom individuálnom prípade. Iba pomocou takýchto zovšeobecnení sa však dajú vystihnúť podstatné tendencie a vzťahy v prírodných a spoločenských javoch. Skúmanie individuálneho javu, jeho konkrétnych vlastností a činiteľov tieto vlastnosti ovplyvňujúcich a podmieňujúcich, neumožní oddeliť, čo je pre daný jav podstatné a typické od toho, čo je nepodstatné a náhodné. Teda neumožní odhaliť, ktoré vplyvy a faktory významne ovplyvňujú vlastnosti skúmaného javu a aké sú ich vzájomné súvislosti. Individuálny jav je však iba určitou konkrétnou formou, jedným prvkom komplexu rovnorodých javov, ktoré sa vyskytujú v prírode alebo spoločnosti, je konkrétnym prejavom hromadného javu. Hromadným javom rozumieme každý prírodný alebo spoločenský jav, ktorý sa vyskytuje pri veľkom počte elementárnych jednotiek, nositeľov tohto javu a jeho konkrétna forma v každom individuálnom prípade je výsledkom určitého zoskupenia činiteľov, pôsobiacich na danú elementárnu jednotku. Skúmanie prírodných a spoločenských javov ako hromadných javov umožňuje poznať ich podstatu a vlastnosti i povahu činiteľov, ktoré ich ovplyvňujú v ich vzájomných vzťahoch a súvislostiach. Napríklad váha novorodeniatok, úrodnosť určitého druhu plodín, spotreba potravín, účinnosť určitého druhu liečiva, váhový prírastok chovných zvierat sú všetko javy, pri ktorých treba pozorovať mnoho jednotlivých prípadov a až na základe takéhoto hromadného pozorovania možno robiť o príslušnom jave zovšeobecňujúce závery. To znamená, že tieto javy treba skúmať ako
2
hromadné javy. Skúmanie hromadných javov a ich vlastností v ich vzájomných vzťahoch a závislostiach si vyžaduje špeciálne metódy a postupy. Tieto metódy poskytuje štatistika. Štatistiku definujeme ako vedu o metódach kvantitatívneho hodnotenia vlastností hromadných javov. Slovo štatistika sa však nepoužíva iba v tomto zmysle - bežne sa s ním stretávame v troch významoch. Označuje sa ním: a) praktická činnosť, spojená so získavaním údajov o hromadných javoch, štatistických dát, ich spracovaním a vyhodnocovaním, b) štatistické dáta, t. j. údaje o hromadných javoch, bezprostredne získané pozorovaním alebo z nich vypočítané charakteristiky, c) vedná disciplína, ktorá sa zaoberá vysvetľovaním metód skúmania a vyhodnocovania údajov o hromadných javoch - štatistických dát. Z definície štatistiky ako vednej disciplíny vyplývajú jej určité príznačné črty: a) Štatistika narába s hromadnými javmi. Jednotlivé (individuálne) vystupuje iba ako špecifický prejav hromadného javu, pričom hromadný jav nemožno chápať iba ako jednoduchý súčet individuálnych prvkov. "Ako celok má taká kolektivita svoje vlastnosti, odlišné od vlastností jednotlivcov (elementov). Napríklad obyvateľstvo štátu ako celok má svoje osobitné vlastnosti, ktoré sa nedajú získať interpretáciou z vlastností jednotlivých obyvateľov" [33]. b) Popri všetkých zvláštnostiach, premenlivosti (variabilite) v individuálnych prejavoch hľadá štatistika pravidelnosti či zákonitosti javov a procesov. Poznať tieto zákonitosti možno iba na základe znalosti dostatočne veľkého počtu individuálnych prípadov, teda na základe hromadného pozorovania. Hromadné pozorovanie je pre štatistiku typické. c) Štatistika hodnotí javy a procesy kvantitatívne, t. j. základnou formou vyjadrovania
3
(merania) vlastností hromadných javov je číselné (numerické) vyjadrenie. Z toho vyplýva, že štatistika hojne využíva pri skúmaní hromadných javov matematický aparát. Hromadnosť ako spoločná črta prírodných a spoločenských javov vytvára predpoklady pre použitie rovnakého metodického základu pri ich číselnom spracovaní a hodnotení. Tento spoločný základ poskytuje štatistika. S jej aplikáciou sa teda stretávame v najrôznejších vedných oblastiach, napr. vo fyzike, biológii, meteorológii, sociológii, medicíne, ekonómii a pod. Hromadné javy, ktoré sú predmetom skúmania v jednotlivých vedných oblastiach, majú však okrem toho vlastné špecifické črty, súvisiace s konkrétnymi podmienkami tej-ktorej vedy. Pri skúmaní hromadných javov treba brať do úvahy tieto špecifické črty a pri ich spracovaní a hodnotení voliť také štatistické metódy, ktoré umožnia daný jav čo najvhodnejšie charakterizovať. Aplikácia štatistiky v jednotlivých oblastiach vedy má teda svoje zvláštnosti: metódy a postupy spracovania, ktoré sú základom štatistického hodnotenia v jednej oblasti, používajú sa v inej iba zriedkavo, alebo sa vôbec nepoužívajú a naopak. Rozpracovaním štatistických metód pre jednotlivé vedné oblasti, v ktorých sa tieto metódy systematicky používajú s prihliadnutím na špecifické problémy predmetnej vedy, vznikajú špeciálne odbory štatistiky. Sú to napr.: zdravotnícka štatistika, biologická štatistika, štatistika obyvateľstva (demografická štatistika), ekonomická štatistika, poľnohospodárska štatistika a pod.
ZÁKLADNÉ POJMY
Predmetom štatistického skúmania je hromadný jav. Jednotlivý jav je zaujímavý iba ako súčasť, elementárna zložka hromadného javu. Napríklad, ak je predmetom štatistického skúmania spotreba na jedného obyvateľa, nemôžeme o tomto jave robiť nijaké závery na
4
základe zistenej spotreby toho-ktorého občana; o účinnosti liečiva sa nedá usudzovať na základe výsledkov u jedného pacienta, o cenovej úrovni na základe ceny určitého druhu tovaru na jednom mieste a pod. Vo všetkých uvedených príkladoch musíme skúmať dostatočne veľký počet prípadov, musíme robiť hromadné pozorovanie. Hromadnosť pozorovania je nevyhnutným predpokladom každého štatistického skúmania. Pri hromadnom pozorovaní môže ísť o: a) jednoduché pozorovanie, ak do priebehu pozorovaných javov nijakým spôsobom nezasahujeme a neovplyvňujeme ich - takýto spôsob pozorovania je typický pre spoločenské javy, napr. úrazovosť, zdravotný stav školopovinnej mládeže, návštevnosť divadiel a kín sú javy, ktoré skúmame bez akéhokoľvek zásahu do ich priebehu, b) experiment, pri ktorom sa vytvorí súbor kontrolovaných podmienok, v ktorých sa pozorovaný jav opakuje - takýto spôsob pozorovania je typický pre oblasť prírodných vied, napr. pri skúmaní rozpustnosti určitej látky sa v laboratóriu môže kontrolovať a regulovať' teplota, koncentrácia látky, vlastnosti rozpúšťadla a pod. V sociálno-ekonomickej oblasti je použiteľnosť experimentu veľmi obmedzená, na mnohých úsekoch neprichádza experiment vôbec do úvahy. Základnou formou je jednoduché pozorovanie. Hromadný jav nadobúda mnoho konkrétnych foriem - skladá sa z mnohých individuálnych javov. Nositelia týchto individuálnych javov sa nazývajú štatistickými jednotkami Štatistická jednotka je základný prvok, na ktorom možno skúmať konkrétny prejav určitého hromadného javu a je základným a presne vymedzeným objektom pozorovania. Štatistickými jednotkami môžu byť osoby, domácnosti, podniky, predmety, udalosti a pod. Pri ich voľbe je rozhodujúci cieľ skúmania. Napríklad pri skúmaní vybavenosti domácností bude štatistickou jednotkou jedna domácnosť, pri skúmaní príčin fluktuácie jeden pracovník,
5
dopravná nehoda bude štatistickou jednotkou pri skúmaní následkov dopravných nehôd a pod. Štatistické jednotky v súhrne vytvárajú štatistický súbor. Štatistický súbor je množina štatistických jednotiek, z ktorých každá vyhovuje určitým vlastnostiam, spoločným všetkým jednotkám daného súboru a vymedzujúcim tak štatistický súbor z hľadiska časového, priestorového a vecného, pričom v ďalších vlastnostiach sa štatistické jednotky môžu líšiť. Z uvedenej definície vyplýva, že štatistické jednotky musia mať určité spoločné základné vlastnosti, ktoré sú podmienkou ich príslušnosti k štatistickému súboru. Pri každom štatistickom skúmaní sa musí rozsah týchto spoločných znakov presne vymedziť, štatistické jednotky presne definovať. Štatistické jednotky sa vymedzujú z priestorového, časového a vecného hľadiska. Priestorové (miestne) vymedzenie štatistických jednotiek znamená určenie miesta alebo územia, za ktoré sa vykoná štatistické skúmanie. Štatistický súbor tvoria tie jednotky, ktoré plnia podmienku príslušnosti k tomuto miestu alebo územiu. Veľmi často sa priestorové vymedzenie zhoduje s administratívnym členením, napr. kraj, okres. Časové vymedzenie štatistických jednotiek spočíva v určení časového úseku, v ktorom (alebo okamihu, ku ktorému) sa štatistické jednotky zahrňujú do skúmania, napr. pracovné úrazy za II. polrok 2004, spotreba plynu v domácnostiach v Bratislave v januári 2005 a pod. Vecným vymedzením štatistických jednotiek rozumieme stanovenie takých vlastností, ktorým musí vyhovovať každá štatistická jednotka. Tieto spoločné znaky musia byť v definícii štatistickej jednotky jasne formulované. Takou vlastnosťou môže byť dosiahnuté vzdelanie, napr. minimálne stredoškolské s maturitou. Štatistickými jednotkami sú len tie osoby, ktoré vyhovujú tejto charakteristike. Čím užšie vymedzíme štatistické jednotky vecne, časovo a priestorovo, čím viac spoločných znakov od nich vyžadujeme, tým je štatistický súbor rovnorodejší, homogénnejší.
6
Rozsah štatistického súboru je daný počtom jednotiek, ktoré do neho patria. Štatistické súbory, ktoré majú do 30 jednotiek, označujeme ako malé súbory. Štatistické súbory často pozostávajú z podstatne väčšieho počtu prvkov: niekoľko sto, tisíc, miliónov, alebo dokonca nekonečného počtu jednotiek. V takýchto prípadoch hovoríme o veľkých súboroch. Všetky štatistické jednotky, ktoré v zmysle definovania patria do štatistického súboru, tvoria základný súbor. Zväčša však nie je možné, ani výhodné vykonať štatistické skúmanie u všetkých jednotiek základného súboru. Vyberá sa z neho istý počet jednotiek podľa určených zásad. Vybrané jednotky tvoria výberový súbor. Existujú metódy, na základe ktorých je možné z výberových dát robiť závery o základnom súbore. Každá štatistická jednotka je nositeľom určitých atribútov, ktoré nazývame štatistickými znakmi. Štatistické znaky sú vonkajším merateľným výrazom vlastností štatistických jednotiek. Členia sa z rôznych hľadísk: a) podľa spôsobu výskytu: -
spoločné, ktorých výskyt je podmienkou príslušnosti danej jednotky k štatistickému súboru a vyplývajú z definície štatistickej jednotky,
-
variabilné, ktoré sa pri jednotlivých štatistických jednotkách daného súboru môžu rôzne vyskytovať. Používa sa pre ne aj označenie premenné.
b) Podľa počtu variantov, ktoré môžu nadobúdať: -
alternatívne, ktoré nadobúdajú iba dva varianty (pohlavie),
-
množné, ktoré môžu nadobúdať mnoho variantov (národnosť, povolanie, mzda).
c) Podľa toho, z akého hľadiska charakterizujú štatistickú jednotku: -
časové,
-
priestorové,
7
-
vecné.
Vecné znaky delíme podľa ich charakteru na kvalitatívne a kvantitatívne. Kvalitatívne (slovné) znaky vyjadrujú vlastnosti štatistických jednotiek, ktoré sa opisujú slovom alebo definíciou (národnosť, farba vlasov a pod.). Kvantitatívne (číselné) znaky charakterizujú vlastnosti jednotiek, ktoré sa vyjadrujú číselne, teda numericky (meranie výšky, váhy, miery inteligencie a pod.). Podľa toho, či kvantitatívne štatistické znaky môžu v rámci nejakého intervalu nadobudnúť akékoľvek reálne hodnoty alebo iba niektoré, hovoríme o spojitých a nespojitých (diskrétnych) znakoch. Spojitý znak môže nadobudnúť akékoľvek reálne hodnoty z nejakého intervalu (telesná výška). Ak však štatistický znak môže v rámci nejakého intervalu nadobudnúť iba niektoré hodnoty, napr. celé čísla, ide o nespojitý (diskrétny) znak (počet predaných výrobkov).
Podľa metód spracovania dát členíme štatistiku na dve základné súčasti. Rozlišujeme popisnú a induktívnu štatistiku. Obsahom popisnej štatistiky je, ako to vyplýva aj z jej názvu, popisným spôsobom charakterizovať štatistický súbor. Používame k tomuto účelu rôzne metódy (zisťovanie početnosti alebo frekvencie výskytu, určovanie mier stredu, mier variability atď.). Na tomto mieste pre ilustráciu uvedenie len niekoľko výstupov popisnej štatistiky: • pri 100 hodoch mincou padol rub mince 58 krát a lícna strana mince 42 krát, • priemerná známka v skúmanej školskej triede je 2.85, • z 1000 pančúch boli tri chybné, • priemerná škoda pri dopravných nehodách v roku 1999 bola 5.500 Sk.• v decembri sa v mestskej pôrodnici narodilo 55 chlapcov a 45 dievčat.
8
Popisná štatistika umožňuje z veľkého počtu údajov, v ktorých by sme sa len ťažko orientovali, hutne prezentovať základné dáta o štatistickom súbore. Pri výskume je bežné, že sa na tejto úrovni sleduje napr. zloženie výskumnej vzorky, možné preferencie niektorých odpovedí. V neposlednej miere je úlohou popisnej štatistiky pripraviť pôdu pre ďalšie spracovanie údajov na úrovni induktívnej štatistiky. Induktívna štatistika je v priamej súvislosti s prijímaním záverov a rozhodovaním sa. Dáva nám do rúk kritéria, na základe ktorých, pomocou určitých mier pravdepodobnosti, môžeme formulovať pravidelnosti v pozorovaných javoch. Opäť uvedieme pre ilustráciu niekoľko príkladov výrokov typických pre induktívnu štatistiku: • pri 100 hodoch mincou padol rub mince 58 krát a lícna strana mince 42 krát. Opodstatňujú nás tieto údaje urobiť záver, že hráč hádzal mince falošne? • je lepší priemerný prospech v skúmanej triede, než v ostatných triedach, spôsobený vyučovacou metódou? • vyžaduje si počet chybných pančúch nejaké systematické opatrenie? • je nárast hodnoty škôd spôsobených dopravnými nehodami od minulého roku náhodný, alebo je spôsobený určitým systematickým vplyvom? • je rozdiel v počte narodených chlapcov a dievčat náhodný, alebo je spôsobený určitou príčinou? • súvisí počet odtrénovaných jednotiek s počtom gólov strelených v zápase?
Na záver tejto časti si zhrnieme podstatné myšlienky o úlohe a poznávacej hodnote štatistiky (Clauss, Ebner, 1986): • Štatistika je vedecký nástroj na poznávanie objektívnej reality. Štatistické uvažovanie sa premieta vedome alebo nevedome aj do nášho každodenného rozhodovania.
9
• Utváranie štatistického úsudku je integrovanou súčasťou induktívneho poznávania. Je jeho nevyhnutným predpokladom. • Štatistické výroky informujú o typických, všeobecných a kvantifikovateľných vlastnostiach súborov. Štatistické úsudky platia pre súbor, ale nemusia platiť pre každý prvok tohto súboru. Zväčša je určená určitá miera pravdepodobnosti platnosti týchto úsudkov.
Meranie a úrovne merania
Meranie znamená priraďovanie čísel objektom a javom podľa stanovených pravidiel. Najjednoduchšou formou merania, resp. kvantifikácie je zisťovanie početnosti alebo inými slovami povedané, zisťovanie frekvencie výskytu. Na tejto úrovni používame aj najjednoduchšiu štatistickú metódu – počítanie. Je to prvý krok pri analýze ľubovoľných údajov získaných v určitom štatistickom súbore. Podmienkou uskutočnenia tejto operácie je kvalitatívna rovnorodosť objektov. Táto rovnorodosť neznamená, že sú jednotlivé prvky úplne rovnaké, ale sú totožné na základe určitého skupinotvorného kritéria (napr. muži, vs. ženy). Príklad: Už v škole nás učia, že musíme zrátať jablká s jablkami a hrušky s hruškami. Mohli by sme ich zrátať aj spolu, ale musíme navrhnúť nové skupinotvorné kritérium – ovocie. Voľba skupinotvorného kritéria je jednou z podstatných otázok, ktorú musíme riešiť pri tvorbe výskumného projektu a nie až pri samotnom štatistickom spracovaní údajov. Najjednoduchšia forma voľby skupinotvorného kritéria je označovaná ako dichotomická (alternatívna). V tomto prípade zisťujeme početnosť prvkov v dvoch triedach (napr. muži –
10
ženy). Meradlom pre počítanie však môžu byť aj kritéria, ktoré rozčlenia štatistický súbor do viacerých tried (opäť v závislosti na skúmanom probléme, napr. triedenie osôb podľa povolania, podľa národnosti a pod.).
Zisťovanie početnosti, ako najjednoduchšia forma spracovania údajov je tiež označované ako nominálne škálovanie, nominálne meranie. Nominálne škálovanie používame bežne v každodennom živote. Identifikujeme druhých ako mužov alebo ženy, deti a dospelých atď. Možno aj tento fakt vedie k tomu, že niektorí odborníci nepovažujú nominálne škálovanie za meranie. Ak však za meranie považujeme priraďovanie čísel (symbolov) objektom alebo javom podľa určitých pravidiel, je aj nominálne škálovanie meraním. Prvky jednotlivých tried môžeme počítať, porovnávať. Podstata nominálneho merania je v klasifikácii objektov, t.j. v ich zaradení do určitých tried, podľa zvolených kritérií a na základe na nich pozorovaných znakov. Túto charakteristiku môžeme vyjadriť postulátmi: alebo sa A = B, alebo sa A # B a druhým postulátom ak A = B a B = C, potom A = C. Štatistické spracovanie údajov je, ako sme už uviedli obmedzené na počítanie, určovanie početnosti, frekvencie výskytu prvkov v jednotlivých triedach. Zo štatistických mier, môžeme v tomto prípade zistiť modus – to je hodnota, ktorá sa v určitom rozdelení vyskytuje najčastejšie (k tejto problematike sa ešte vrátime pri stredných hodnotách). V dvojrozmerných tabuľkách je možné stanovovať miery kontingencie.
Druhú úroveň škálovania (merania) predstavuje poradové, nazývané tiež ordinálne meranie. Vychádza z predpokladu, že všetky objekty určitej triedy môžu byť zoradené podľa definovanej vlastnosti. Postulát, o ktorý sa poradové škálovanie opiera, môžeme vyjadriť takto: ak A je väčšie ako B a B je väčšie ako C, tak potom aj A je väčšie ako C. V triede vytvorenej určitým skupinovotvorným kritériom zisťujeme rozdiely v určitej vlastnosti.
11
Posudzovanie sa však vykonáva len na úrovni, napr. väčší, menší, rovnakí. Nie je definovaná jednotka miery, nie sú definované vzdialenosti medzi objektami. Príklad: Žiaci na telesnej výchove pretekali spoločne na trati okolo dvora. Učiteľ si však zabudol stopky. Mohol teda urobiť len poradie žiakov, v ktorom dobehli do cieľa. Pritom rozdiely medzi nimi mohli byť rôzne. Zo štatistických charakteristík môžeme v tomto prípade vypočítať strednú hodnotu nazývanú medián – hodnotu z radu hodnôt zoradených podľa veľkosti, ktorá delí tento rad na polovice. Ako mieru variability určujeme kvartilové rozpätie. Môžeme tiež vyrátať poradové korelácie, ktoré predstavujú štatistickú mieru vyjadrujúcu súvislosť dvoch charakteristík. Príklad: zoradíme do poradia žiakov podľa výsledkov v behu (bez udania konkrétnych časov) a podľa telesnej výšky (bez udania konkrétnej hodnoty v centimetroch) a hľadáme súvislosť medzi týmito znakmi.
Tretia úroveň škálovania je reprezentovaná intervalovým meraním, tiež nazývanou škálou rovnakých intervalov. Intervalové škály majú všetky charakteristiky nominálnych a poradových škál, hlavne charakteristiku poradia. Na rozdiel od nich však vzdialenosti medzi susednými hodnotami sú konštantné. Jednotlivé intervaly môžu byť sčítané a odčítané. Príklad: Ak sme na 9 – bodovej intervalovej škále merali 4 objekty a namerali sme hodnoty: 8, 6, 5 a 3, potom môžeme oprávnene povedať, že rozdiel medzi prvým a tretím (8 – 5 = 3) a druhým a štvrtým (6 – 3 = 3) je rovnaký. Upozorňujeme, že hodnoty, ktoré sú sčítané a odčítané sú intervaly, vzdialenosti, ale nie množstvá. Nemajú teda absolútnu 0 na stupnici, len dohodnutú 0. V prípade intervalovej stupnice sú možnosti štatistického spracovania oveľa väčšie než v prípadoch nominálnej a poradovej stupnice. Môžeme vyrátať aritmetický priemer ako mieru
12
stredu a smerodajnú odchýlku ako mieru variability. Ako mieru súvislosti určujeme súčinovú koreláciu.
Absolútnu nulovú hodnotu majú škály, ktoré nazývame pomerové. Tieto tiež nazývané absolútne stupnice. Tým, že obsahujú absolútnu 0 umožňujú vykonať porovnanie pomerov. Príkladom využiteľným aj v psychológii je vek človeka. Môžeme vysloviť konštatovanie, že 40 ročný človek je 2 krát starší ako 20 ročný. Nemôžeme však tvrdiť, že človek s inteligenciou vyjadrenou 60 IQ je o polovicu menej inteligentný, než človek s IQ 120, pretože inteligencia je meraná intervalovou a nie pomerovou škálou. Možnosti štatistického spracovania sú podobné ako v prípade intervalových škál (pribúdajú niektoré ďalšie charakteristiky, napr. geometrický priemer). V sociálnych vedách je použitie pomerových škál veľmi zriedkavé a v konečnom dôsledku aj diskutabilné. Skôr sú využívané výsledky pomerových škál z rôznych fyzikálnych, prípadne fyziologických meraní, ktoré odrážajú určité psychické alebo sociálne javy.
Štyri spomenuté druhy stupníc sa v podstate rozdeľujú do dvoch základných druhov. Nominálne a poradové stupnice predstavujú nižší stupeň merania založený na zisťovaní početnosti a poradia – nazývame ich homográdny prípad. Intervalové a pomerové stupnice predstavujú metrické úrovne škálovania a nazývame ich heterográdny prípad.
13
Popisná štatistika
Popisná štatistika sa zaoberá popisom štatistických súborov s cieľom zjednodušiť komplikovanú sumu získaných údajov. Pomocou nej vyjadrujeme empirické rozdelenia jednej, dvoch alebo viacerých premenných. Pojem empirické rozdelenie označuje hodnoty sledovaných premenných nameraných v štatistickom súbore. Sú získané empiricky, čiže výskumom alebo prieskumom.
Jednorozmerné rozdelenie
Termínom jednorozmerné rozdelenie alebo inak jednorozmerná distribúcia hodnôt označujeme sledovanie empirického rozdelenia jednotlivej premennej. V štatistických súboroch, ktoré obsahujú viaceré premenné ide o samostatné distribúcie týchto premenných bez hľadania vzájomných vzťahov medzi nimi. Takáto forma spracovania dát sa nazýva aj triedenie prvého stupňa. Rozoznávame tri spôsoby prezentácie empirických rozdelení, sú to: -
tabuľkové vyjadrenie,
-
grafické zobrazenie,
-
numerické (číselné) charakteristiky.
Tabuľkové a grafické vyjadrenie Tabuľky jednorozmerných rozdelení majú podobu frekvenčných tabuliek (označujú sa aj ako tabuľky rozdelenia početností, príp. tabuľky početností). Obsahujú informácie
14
o zaznamenaných hodnotách znaku, o počte výskytu hodnôt znaku v štatistickom súbore (absolútna početnosť), ďalej pomerné vyjadrenie počtu hodnôt (relatívna početnosť) a vyjadrenie pribúdajúcich súčtov početností na jednotlivých úrovniach hodnôt (kumulatívne početnosti a kumulatívne relatívne početnosti). Relatívne početnosti sa zvyčajne uvádzajú ako percentá. Súčet percentuálnych hodnôt je rovný 100%. Uvedené 4 typy početností sa používajú v tabuľkách popisujúcich kvantitatívne premenné. (V prípade kvalitatívnych premenných tabuľky obsahujú iba absolútne a relatívne početnosti.) V základnej frekvenčnej tabuľke sú vyjadrené početnosti výskytu každej jednotlivej hodnoty premennej v štatistickom súbore. Ak následne spájame susedné hodnoty premennej do spoločných tried (intervalov) vznikajú tabuľky triednych početností (tabuľky triednych intervalov). Grafické zobrazenie je geometrickým obrazom výsledkov získaných sledovaním nejakého znaku v štatistickom súbore. Poskytuje rovnakú informáciu o empirickom rozdelení ako tabuľka, ale iným spôsobom. V prípade jednorozmerného rozdelenia kvantitatívnych znakov je graf najčastejšie konštruovaný v podobe histogramu. Sú to obdĺžniky, ktorých veľkosť je závislá na početnosti výskytu hodnoty znaku v súbore (napr. pri sledovaní telesnej výšky počet osôb, ktoré majú jednotlivé hodnoty výšky). Pokiaľ ide o kvalitatívne znaky, graf má podobu stĺpcového diagramu. Výška stĺpca je podmienená početnosťou výskytu úrovne hodnoty znaku (napr. vyjadrenie počtu mužov a počtu žien v štatistickom súbore).
15
Príklad zostavenia frekvenčnej tabuľky: Z uvedených hodnôt premennej X (výsledky testu vedomostí) zostavte tabuľky početností (s určením jednotlivých typov početností) pri šírkach intervalov h=1 a h=3 (n=20) x: 7, 4, 9, 3, 6, 12, 14, 11, 11, 10, 7, 9, 4, 5, 8, 6, 4, 5, 1, 2. Riešenie: Tabuľka pri šírke intervalu h=1 (čiže každá hodnota zvlášť – základná tabuľka) X
f
rf (%)
cf
rcf (%)
1
1
5
1
5
2
1
5
2
10
3
1
5
3
15
4
3
15
6
30
5
2
10
8
40
6
2
10
10
50
7
2
10
12
60
8
1
5
13
65
9
2
10
15
75
10
1
5
16
80
11
2
10
18
90
12
1
5
19
95
13
0
0
19
95
14
1
5
20
100
20
100
16
Tabuľka pri šírke intervalu h=3 (tabuľka triednych intervalov) x
f
rf (%)
cf
rcf (%)
1-3
3
15
3
15
4-6
7
35
10
50
7-9
5
25
15
75
10-12
4
20
19
95
13-15
1
5
20
100
20
100
Štatistické charakteristiky jednorozmerných rozdelení
V predchádzajúcej časti sme si ukázali ako môžeme údaje vhodne zapísať do tabuľky a ako ich môžeme graficky vyjadriť. Teraz prejdeme k numerickému vyjadreniu empirického rozdelenia, ktoré reprezentujú štatistické charakteristiky. Štatistickými charakteristikami nazývame veličiny, ktoré poskytujú stručnú číselnú informáciu o všetkých údajoch štatistického súboru. V opisnej štatistike sú definované dve základné skupiny týchto charakteristík: • miery stredu (stredné hodnoty, miery centrálnej tendencie) - miery, ktoré označujú polohu rozdelenia na vodorovnej osi, charakteristiky polohy, • miery variability - miery rozptýlenia, premenlivosti rozdelenia údajov.
17
Miery stredu
Členíme ich na dve základné skupiny: priemery a ostatné stredné hodnoty. K priemerom patria aritmetický priemer, geometrický priemer, harmonický priemer a kvadratický priemer. Pri ich výpočte zohľadňujeme všetky namerané hodnoty znaku v štatistickom súbore. Ostatné stredné hodnoty sú medián a modus. Pri ich výpočte sa zohľadňujú len niektoré namerané hodnoty znaku. Najdôležitejšou charakteristikou centrálnej tendencie je aritmetický priemer (ďalej budeme zväčša používať len pojem priemer, ako je to bežne zaužívané). Aritmetický priemer ( x , AM, M) je definovaný ako súčet nameraných hodnôt delený ich počtom.
x=
1 n ∑ xi n i =1
Aritmetický priemer má celý rad dôležitých vlastností, z ktorých uvedieme nasledujúce: •
stálosť súčtu hodnôt – ak jednotlivé hodnoty v súbore nahradíme ich priemerom, súčet hodnôt zostane nezmenený,
• ak ku každej hodnote x pripočítame rovnaké číslo, zväčší sa o toto číslo aj priemer (platí aj pre odpočítanie), • Súčet odchýlok všetkých hodnôt od priemeru sa rovná nule n
∑ (xi - x ) = 0 . i=1
18
• Súčet štvorcov (druhých mocnín) odchýlok všetkých hodnôt od ich priemeru je najmenšie možné číslo. Je menší ako súčet štvorcov odchýlok všetkých hodnôt od akejkoľvek inej hodnoty.
∑ (xi - x )2 < ∑ (xi - a)2, pričom x ≠ a
• Matematické vyjadrenie priemeru je jednoduché a používa sa v mnohých ďalších odvodeniach dôležitých vzťahov. • Výpočet priemeru je založený na všetkých nameraných hodnotách. • Priemer je citlivý voči extrémnym výkyvom, môže byť silne ovplyvnený krajnými hodnotami súboru. Posledná uvedená charakteristika aritmetického priemeru je jeho nevýhodou a jednou z príčin, prečo niekedy ako štatistickú charakteristiku polohy používame medián. Medián ( ~x , Me, Q2) je hodnota z radu hodnôt zoradených podľa veľkosti, ktorá delí
tento rad na polovice. Pri jeho výpočte musíme najprv namerané hodnoty zoradiť do poradia od najmenšej po najväčšiu. Potom pri nepárnom počte hodnôt medián určíme celkom jednoducho. Je to práve hodnota tvoriaca stred radu hodnôt. V prípade párneho počtu hodnôt, medián stanovíme ako priemer dvoch hodnôt ležiacich v strede usporiadaného radu. Napr. majme súbor hodnôt 4, 1, 2, 7, 5. Zoradíme ich do poradia: 1, 2, 4, 5, 7. Hodnota 4 predstavuje v tomto súbore medián. Ak je počet hodnôt párny, ako napr: 1, 2, 2, 4, 5, 6, 7, 9; medián leží medzi číslami 4 a 5 a je reprezentovaný priemerom týchto hodnôt, čiže jeho hodnota je 4,5. Poradie mediánu v súbore dát zoradených podľa veľkosti vieme určiť (a tak si uľahčiť výpočet), a to podľa vzorca:
19
1 ~ x = (n + 1) 2
Medián vyjadruje 50% výskytu, tzn. 50. percentil (C50). Pri členení usporiadaného súboru na kvartily (štvrtiny) vyjadruje druhý kvartil (Q2). Dôležitou vlastnosťou mediánu je, že súčet absolútnych odchýlok všetkých hodnôt od ich mediánu je minimálny. Je menší ako súčet absolútnych odchýlok všetkých hodnôt od akejkoľvek inej hodnoty. Symbolicky: ∑ |xi - ~x | < ∑ |xi - a|, ak ~x ≠ a. Treťou dôležitou štatistickou mierou stredu je modus. Modus ( x , Mo) je definovaný ako hodnota, ktorá sa v určitom rozdelení vyskytuje
najčastejšie. Modus môžeme vyrátať za predpokladu, že početnosti hodnôt sa odlišujú: 3,4,4,5,5,5,5,6,6, modusom je hodnota 5. Ak majú dve susediace hodnoty rovnako vysoké početnosti väčšie ako ostatné hodnoty je modusom priemer týchto dvoch hodnôt: 2,3,4,4,4,5,5,5,6 modusom je hodnota 4,5. Ak tieto hodnoty nie sú susedné potom určíme dva modusy (ide o bimodálne rozdelenie): 2,3,4,4,4,4,5,6,7,8,8,8,8,9,10,11, modusom je 4 a 8. V niektorých prípadoch môžeme modus určiť priamo z tabuľky alebo grafu.
Porovnanie mier stredu Odporúča sa uprednostniť pri výpočtoch, ak to podmienky dovoľujú, výpočet
aritmetického priemeru, a to z nasledovných dôvodov:
• je jednoznačný a ľahko vypočitateľný, • pri veľkom n dáva spoľahlivé odhady parametrov základného súboru
20
V niektorých prípadoch nie je však jeho použitie optimálne. Je to v situáciách, keď rozdelenie údajov je viacvrcholové, asymetrické, premenné sú poradové, výber je príliš malý. Medián je vhodný, ak sa vyskytne väčšina z týchto obmedzení. Konkrétne, ak máme k dispozícií len poradové premenné, rozdelenie údajov je asymetrické a máme k dispozícii výbery s malým počtom prvkov. Modus je vhodný na opísanie viacvrcholových rozdelení údajov. Na rozdiel od priemeru a mediánu možno ho stanoviť aj u nominálnych premenných. Pri presne symetrickom rozdelení (tzv. normálna alebo Gaussova krivka rozdelenia) sú hodnoty priemeru, mediánu a modusu totožné. Ak analyzujeme pozitívne zošikmené rozdelenie (vrchol posunutý doľava – k nižším hodnotám), potom platí: modus < medián < priemer . Ak skúmame negatívne zošikmené rozdelenie (vrchol posunutý doprava – k vyšším hodnotám), potom platí: priemer< medián < modus.
Miery variability
V úvode tejto časti sme uviedli, že rozlišujeme dve skupiny štatistických charakteristík súboru údajov. Druhú skupinu, na ktorú sústredíme pozornosť v nasledujúcej časti, predstavujú miery variability. Miery variability ako štatistické charakteristiky poskytujú informácie o tom, ako sú jednotlivé pozorované hodnoty v analyzovanom empirickom rozdelení rozptýlené, vypovedajú o premenlivosti hodnôt. Sú pre charakterizovanie rozdelení údajov dôležité, pretože aj tie rozdelenia, ktoré majú rovnaké stredné hodnoty sa môžu od seba odlišovať rozptylom údajov.
21
Miery variability členíme na tie, ktoré sú odvodené iba od niektorých hodnôt (variačné rozpätie, kvartilové rozpätie) a na tie, ktoré vychádzajú zo všetkých nameraných hodnôt (priemerná odchýlka, rozptyl, smerodajná odchýlka). Variačné rozpätie (R - range) je definované ako rozdiel medzi najväčšou a
najmenšou hodnotou distribúcie (rozdelenia) údajov. Vypočítame ho pomocou vzorca:
R = xmax - xmin
Variačné rozpätie prináša informáciu o rozsahu hodnôt distribúcie a je určené extrémnymi (krajnými) hodnotami rozdelenia. Môžeme toto rozpätie ľahko určiť, je prehľadné a zrozumiteľné. Je však zároveň málo stabilné vzhľadom na náhodné výkyvy (používame ho zväčša len pre výbery do 12 prvkov). Výrazne závisí na veľkosti výberu a preto nemôžeme porovnávať variačné rozpätia rozlične veľkých výberov. Neposkytuje spoľahlivý odhad rozptýlenia údajov v základnom súbore. Kvartilové rozpätie (interkvartilový interval, RQ) vychádza z rozčlenenia
distribúcie na štyri rovnaké časti – kvartily. Súbor údajov musí byť usporiadaný podľa veľkosti (podobne ako pri výpočte mediánu). Interval na znakovej osi, ohraničený dolným kvartilom Q1 (štvrtina, 25 % všetkých hodnôt) a horným kvartilom Q3 (tri štvrtiny, 75 % všetkých hodnôt) udáva hodnotu kvartilového rozpätia:
RQ = Q3 − Q1 V tomto intervale leží 50 % všetkých hodnôt empirického rozdelenia. Polovičnú interkvartilovú vzdialenosť označujeme ako kvartilová odchýlka (Q). Q=
Q3 − Q1 2
22
Kvartilové rozpätie a kvartilová odchýlka sú presnejšími indikátormi variability ako variačné rozpätie, i keď ich určujú iba niektoré hodnoty rozdelenia. Pri výpočte je výhodné stanoviť poradie prvého a tretieho kvartilu, a to pomocou nasledovných vzorcov: Q1 =
1 (n + 1) 4
Q3 =
3 (n + 1) 4
Priemerná odchýlka (e, MD) je definovaná ako aritmetický priemer z absolútnych
hodnôt odchýlok všetkých hodnôt rozdelenia od ich strednej hodnoty (tou môže byť aritmetický priemer, ale aj medián). Vypočítava sa nasledovne: n
e=
∑x i =1
i
−x
n
Rozptyl alebo variancia (s2) je definovaný ako súčet štvorcov odchýlok všetkých hodnôt
rozdelenia od ich aritmetického priemeru delený počtom meraní mínus 1 meranie. Prináša informáciu o tom, ako kolíšu namerané hodnoty okolo priemeru rozdelenia. Základný tvar vzorca je nasledovný:
s2 =
1 n ∑ ( xi − x ) n − 1 i =1
2
Existuje však aj výpočtový tvar: ⎛ n ⎞ x ⎜ ⎟ ∑ i n ⎝ i =1 ⎠ 2 xi − ∑ n 2 i =1 s = n −1
2
Smerodajná (alebo štandardná) odchýlka (s) je definovaná ako druhá odmocnina
z rozptylu.
23
Smerodajná odchýlka prináša informácie o presnosti merania (aká je chyba merania) a vypočítame ju nasledovne: s = s2
Rozptyl a smerodajná odchýlka sú najdôležitejšie miery variability, a to z nasledovných dôvodov: •
sú len veľmi málo ovplyvňované náhodnými extrémnymi hodnotami výberu,
•
závisia od všetkých hodnôt distribúcie,
•
sú spoľahlivé pre odhady rozptýlenia dát v základnom súbore,
•
sú vhodné a využívajú sa pre ďalšie matematicko-štatistické spracovanie a výpočty.
Variačný koeficient
V niektorých prípadoch potrebujeme zistiť, či meraný znak je rovnako rozptýlený v každom výbere. Ak máme rovnaké výbery a rovnakým spôsobom sme znak merali, môžeme to urobiť jednoduchým porovnaním rozptylov. Ak však výbery nie sú rovnaké, musíme najprv vyrátať variačný koeficient (Pearsonov), ktorý je definovaný ako miera variability vyjadrená v percentách aritmetického priemeru:
V=
100 s x
Variačný koeficient predstavuje relatívnu mieru variability. Je určený pre hodnoty získané pomerovou stupnicou. S jeho používaním sa však stretávame aj pri spracovaní dát získaných na intervalovej úrovni.
24