M A T E M A T I K A ____________________________________________
UõEBNICA ŠTATISTIKY PRE STREDNÉ ŠKOLY Návrh Mgr. Miriam Porubská
PRÍRODOVEDECKÁ FAKULTA UNIVERZITY P. J. ŠAFÁRIKA V KOŠICIACH Katedra matematickej analýzy
OBSAH
1. Opis štatistického súboru 2. Základné charakteristiky súboru 3. Grafické znázornenia 4. Štatistická závislosť dvoch znakov 5. Princípy testovania štatistických hypotéz 6. Regresia 7. Niekoľko zaujímavých úloh a príkladov 8. Rady na záver
1. Opis štatistického súboru
1. Opis štatistického súboru
1. OPIS ŠTATISTICKÉHO SÚBORU
Absolútna početnosť je číslo ni , ktoré udáva, koľkokrát sa v súbore vyskytuje hodnota znaku xi . Relatívna početnosť hodnôt
Medzi základné pojmy štatistiky patrí pojem štatistický súbor, respektíve základný súbor. Štatistický súbor je množina, skupina prvkov, ktoré sú predmetom štatistického skúmania a pozorovania, a ktoré majú rovnaké vlastnosti z hľadiska pozorovania. Napríklad „automobily značky Felícia“. Prvok štatistického súboru (v našom prípade každé auto značky Felícia) sa nazýva štatistická jednotka. Počet prvkov štatistického súboru sa označuje N a nazýva sa rozsah štatistického súboru. Pri štatistickej práci si vždy všímame a sledujeme určitú vlastnosť prvkov štatistického súboru. Táto vlastnosť sa nazýva štatistický znak (môže ísť napríklad o farbu auta). Nesmieme zabudnúť na to, že heslom modernej štatistiky nie je „vyčerpávajúce zisťovanie“, ale „výber“. V tých situáciách, v ktorých nie je možné alebo účelné zachytiť každú štatistickú jednotku základného súboru, sa používa tzv. výberový súbor. Výberový súbor je podmnožina základného súboru, do ktorej sa vyberajú štatistické jednotky podľa vopred určených zásad. Medzi ne patrí náhodnosť (každý má rovnakú šancu byť „vybratý“) a nezávislosť (výber jedného nijakým spôsobom neovplyvní výber druhého). Ak rozsah základného štatistického súboru je N , tak rozsah výberového súboru je n , ale to je vždy podstatne menšie než N (n N ) .
znaku xi je
Hodnotu štatistického znaku väčšinou označujeme písmenom x s indexom, ktorý vyjadruje poradie pozorovania. Vždy môžeme predpokladať, že táto hodnota bude reálne číslo. Ak totiž máme nominálne dáta (to sú také, ktoré sa vyjadrujú len slovami), pre účely štatistiky ich môžeme číselne zakódovať. (napríklad farby našich áut budu očíslované takto: modrá - 1, červená - 2, ...).
1
ni . V skutočnosti však rôznych hodnôt štatistických n znakov je len k - x1, x2 ,..., xk a súčet ich absolútnych početností n1, n2 ,..., nk je celé n .
Prehľadne zistené údaje môžeme zaznamenať do tzv. tabuľky početností, ktorá ku každej hodnote znaku obsahuje jeho absolútnu alebo relatívnu početnosť. Tomuto zhrnutiu sa tiež niekedy hovorí rozdelenie početností. TABUĽKA POČETNOSTÍ hodnota štatistického znaku absolútna početnosť relatívna početnosť
x1
x2
...
xk
n1 n1 n
n2 n2 n
...
nk nk n
...
Ak je počet možných hodnôt veľmi veľký (napríklad pri spojitých veličinách), musíme tieto hodnoty usporiadať do intervalov a zisťovať početnosti iba týchto intervalov. Pritom musíme mať na pamäti, že ľubovoľnosť voľby intervalov (tried) môže podstatným spôsobom ovplyvniť výzor tabuľky početností.
KDE SA NEPOMÝLIŤ? PRÍKLAD 1.1. Majme vrece orechov. Siahneme dovnútra a vytiahneme 1 orech. Rozlúskneme ho a zistíme, že je pokazený. Môžeme s istotou tvrdiť, že celé vrece je plné zlých orechov, alebo môžeme povedať niečo iné? Raz bol publikovaný článok, ktorý navrhoval opatrenia pre chov oviec na celom Slovensku. Tieto opatrenia však boli založené na skúmaní 4 oviec. Je to dosť? 2
1. Opis štatistického súboru
ZAPAMÄTAJTE SI:
MALÝ VÝBER NIE JE REPREZENTATÍVNY!
PRÍKLAD 1.2. V televízii raz položili otázku: „Je potrebné dať sa poistiť pred zahraničnou dovolenkou?“. Bolo potrebné telefonovať. V čase relácie do štúdia zavolalo 49 ľudí, príliš málo na to, aby to bola reprezentatívna vzorka celého obyvateľstva. A nielen kvôli malému rozsahu, ale aj kvôli iným dôvodom. Relácia išla v televízii predpoludním. To znamená, že ju mohli sledovať tí, ktorí sú v takom čase doma, a to v prvom rade nezamestnaní, dôchodcovia a matky, ktoré sú s deťmi doma. Určite nebude v takomto čase pozerať televízor nejaký podnikateľ, ktorý na opisovanú dovolenku najskôr pôjde. Výber nebol reprezentatívny. A výsledok? 41 bolo za a 8 bolo proti. „To znamená, že sa potrebujeme poistiť!“ Takto to zakončil komentátor relácie. Znamená to však naozaj toto? Dá sa to len tak ľahko zovšeobecniť na celý základný súbor? Určite nie. Mohli by sme s istotou povedať len to, že zo 49 telefonujúcich (a to je tiež zdroj vychýlenia) je 41 za a 8 proti. Ale žiadne zovšeobecnenia. ZAPAMÄTAJTE SI: KAŽDÝ MÁ MAŤ ROVNAKÚ ŠANCU DOSTAŤ SA DO VÝBERU! PRÍKLAD 1.3. Dotazníkmi sa tiež dajú zisťovať údaje o súbore. Ale otázky v nich sú niekedy veľmi zákerné. Ktorú z ponúkaných kombinácií farieb: a) červenú, zelenú a žltú b) modrú, fialovú a ružovú c) hnedú, čiernu a sivú si má vybrať človek, ktorý obľubuje zelenú, modrú a sivú? ZAPAMÄTAJTE SI: OTÁZKY V DOTAZNÍKU BY MALI VYSTIHOVAŤ VŠETKY MOŽNOSTI, MALI BY BYŤ ZROZUMITEĽNÉ A NEZAVÁDZAJÚCE!
1
1. Opis štatistického súboru
PRÍKLAD 1.4. Niektoré tvrdenia o súbore by sme mohli zaradiť do takýchto dvoch skupín: - nepodložené (nikto ich určite neoveroval) „99% slovenských psov nikdy neochutná gulášovú polievku Vitana.“
- nezistiteľné (nikto ich nemohol zistiť) „Človeku priemerne za deň prebehne hlavou 50 000 myšlienok.“
ZAPAMÄTAJTE SI: NIE KAŽDÉ TVRDENIE O SÚBORE SA DÁ DOKÁZAŤ A NIE KAŽDÉ BOLO AJ DOKÁZANÉ! PRÍKLAD 1.5. Niekedy sa stretneme aj s číslami, ktoré nás ohúria svojou presnosťou. Pozrite sa na výsledky výberového zisťovania o dovolenkovaní občanov SR v zime 1996/97: „Priemerný čas dovolenky na Slovensku bol 2,1 dňa. Výdavky naň - vrátane spolucestujúcich - boli priemerne 3 854 Sk. Pobyty v zahraničí trvali kratšie - priemerný čas bol 1,6 dňa. Výdavky na pobyt, vrátane všetkých zúčastnených, dosahovali 6 171 Sk.“ Takéto presné údaje, dokonca s presnosťou na koruny, či na desatiny dňa, sú nezvyklé. Oveľa pravdepodobnejšie by tieto údaje zneli, ak by sa cena dovolenky zaokrúhlila na tisícky a ak by sa doba dovolenky zaokrúhlila na celé dni. ZAPAMÄTAJTE SI: ŠTATISTIKA NEMÔŽE VŽDY POUŽÍVAŤ PRESNÉ õÍSLA, LEBO ONA VÄõŠINOU VECI ODHADUJE A Z ODHADU SA NIKDY NESTANE PRESNÉ õÍSLO!
ÚLOHA 1.1. Zamyslite sa, či má zmysel napísať (bolo to na telefónnej karte): „Mount Everest má 8848,13m.“ ? Zdôvodnite svoju odpoveď.
2
2. Základné charakteristiky súboru
2. ZÁKLADNÉ CHARAKTERISTIKY SÚBORU Predstavte si, že potrebujete publikovať údaje o prieskume nákladov na benzín za 1 mesiac, ktoré ste zistili u 200 náhodne vybratých majiteľov áut. Bolo by asi nereálne, ale tiež nerozumné uvádzať všetky konkrétne čísla, preto si môžete pomôcť tzv. číselnými charakteristikami, ktoré nám pomáhajú namerané údaje stručnejšie a súhrnnejšie charakterizovať. Číselných charakteristík je viacej druhov. Musíme si pri ich použití dať pozor aj na to, že niektoré z nich nemajú zmysel pre určité typy dát (napríklad najčastejšia farba je dobrá, ale priemerná farba je nezmysel). Ak číselné charakteristiky opisujú, kde ležia namerané hodnoty, resp. aké je stredné alebo typické pozorovanie, nazývame ich charakteristiky polohy. Ak charakterizujú mieru, do akej sú pozorovania rozptýlené alebo koncentrované na jednom mieste, nazývajú sa tiež charakteristiky rozptýlenosti. A) CHARAKTERISTIKY POLOHY 1. aritmetický priemer - vypočítame tak, že jednotlivé hodnoty sčítame a súčet delíme ich počtom: x
1 n
n x i 1 i
. Špeciálnym druhom aritmetického priemeru je
váôený aritmetický priemer. Používame ho vtedy, keď sa namerané 1 hodnoty viackrát opakujú: x n
k
xn i 1 i i
.
2. modus (najpočetnejšia hodnota) - udáva, ktorý jednotlivý výsledok je v nameraných hodnotách zastúpený najčastejšie. Označujeme ho x^ alebo Mod (x) .
1
2. Základné charakteristiky súboru
3. medián (prostredná hodnota, centrálna hodnota) - môžeme určiť vtedy, keď usporiadame všetky namerané hodnoty podľa veľkosti. Ak je počet pozorovaní nepárny, medián je prostredná hodnota (t.j. hodnota, ktorej poradie je n21 ). Ak je počet pozorovaní párny, medián určíme ako aritmetický priemer dvoch prostredných hodnôt (t.j. tých hodnôt, ktoré majú poradie n2 a n2 1 ). Medián označujeme ~x alebo Med (x ) . 4. harmonický priemer - vypočítame tak, že najskôr sčítame recipročné (prevrátené) namerané hodnoty a číslo dosadíme do menovateľa zlomku, ktorého čitateľ
je
počet
meraní: xh
n
1 i 1 x i n
.
Prevrátená
hodnota
harmonického priemeru nameraných hodnôt je vlastne aritmetický priemer prevrátených hodnôt. 5. geometrický priemer - využívame v situácii, keď niečo exponenciálne rastie alebo klesá. Vypočítame ho ako n - tú odmocninu zo súčinu výsledkov meraní, pričom n je počet meraní: xg n x1 x2 ... xn .
B) CHARAKTERISTIKY ROZPTÝLENOSTI 1. smerodajná odchýlka - vypočítame ju podľa tohto vzorca: s x
1 n 1
n
i 1
xi x 2 .
Čím je toto číslo menšie, tým sú menšie aj rozdiely xi x 2 a tým sú namerané hodnoty xi bližšie k aritmetickému priemeru x (ich rozptýlenosť je menšia).
2
2. Základné charakteristiky súboru
2. rozptyl (disperzia) - je druhá mocnina smerodajnej odchýlky. Označujeme ju s x2
1 n 1
n i 1
3. variačný koeficient vx
Tento prevedený výpočet nie je nič iné ako výpočet harmonického priemeru rýchlostí: x h
n 1 i 1 x i
xi x 2 .
- označujeme
2. Základné charakteristiky súboru
sx .100% x
a vyjadrujeme ním relatívnu
rozptýlenosť (variabilitu) hodnôt vzhľadom k priemeru. Je to vlastne relatívna chyba.
KDE SA NEPOMÝLIŤ? ÚLOHA 2.1. Preštudujte si túto vetu a jej dôkaz. Potom nájdite v dôkaze chybu. Veta: Deti nechodia do školy. Dôkaz: Od počiatočných 365 dní roka odčítajme 122 dní, ktoré predstavujú jednu tretinu času strávenú v posteli a ďalších 45 dní za 3 hodiny denne strávené jedením. Od zvyšných 198 dní odčítajme 98 za prázdniny. Nakoniec zistíme, že zvyšné dni už nestačia ani na vykrytie sobôt a nedieľ. q.e.d. ZAPAMÄTAJTE SI: SõÍTAŤ MÔŽETE LEN TO, õO SA MÔŽE SõÍTAŤ! PRÍKLAD 2.1. Vypočítajme priemernú rýchlosť nášho auta. Vieme, že prvých 10 km cesty ideme rýchlosťou 50 km/h, ďalších 10 km rýchlosťou 80 km/h a posledných 10 km rýchlosťou 100 km/h. Priemerná rýchlosť sa v tomto prípade nedá vypočítať ako aritmetický priemer rýchlostí 50, 80, 100. To by sme dostali výsledok 76,7 km/h. Pravdivý výsledok dostaneme, ak najskôr vypočítame čas, ktorý sme strávili cestou (25 minút a 30 sekúnd) a koľko kilometrov sme prešli (30 km). Z toho potom vypočítame priemernú rýchlosť, ktorá je približne 70,6 km/h.
1
n
3 70,6 . 1 1 1 50 80 100
ÚLOHA 2.2. Vypočítajte priemerný úrok počas dvoch rokov, ak prvý rok bol úrok 4% a druhý rok 3%. (Návod: Použite geometrický priemer.) ÚLOHA 2.3. Počet obyvateľov bol v nejakom meste v roku 1980 – 200 000 a v roku 1990 – 300 000. Asi koľko obyvateľov žilo v tomto meste v roku 1985? (za predpokladu, že mesto rovnakým tempom rástlo) (Návod: Použite geometrický priemer.) ZAPAMÄTAJTE SI: ARITMETICKÝ PRIEMER SA NEDÁ POUŽIŤ VŽDY! PRÍKLAD 2.2. V správe o výsledkoch testu u 108 študentov bolo napísané, že priemerný počet dosiahnutých bodov bol 85, pričom maximálny počet bodov bol 170. V skutočnosti rozdelenie bodov mohlo byť rôzne. Napríklad aj také, aké môžeme vidieť na obrázku na nasledujúcej strane. ZAPAMÄTAJTE SI: PRIEMER NESTAõÍ!
2
2. Základné charakteristiky súboru
1
2. Základné charakteristiky súboru
2
3. Grafické znázornenia
3. GRAFICKÉ ZNÁZORNENIA
3. Grafické znázornenia
ni
Asi najnázornejšiu predstavu o stave, vývoji alebo skladbe vybraných údajov nám dáva grafické znázornenie, no iba v tom prípade, ak je jasné a správne. V štatistike poznáme rôzne druhy grafických prezentácií, patria medzi ne bodové, spojnicové, stĺpcové, plošné, priestorové, kruhové, výsečové a prstencové grafy, ale tiež obrázkové grafy (tzv. piktogramy), alebo Chernoffove tváre, krabicové, či hviezdicové grafy atù. Okrem týchto druhov poznáme dva základné grafy rozdelenia početnosti - histogram a polygón. Aby sme ich vedeli zostrojiť, potrebujeme tabuľku početností, ktorú sme opisovali v prvej kapitole. 1. polygón početnosti (spojnicový diagram) - pri jeho zostrojovaní na os - o x nanášame hodnoty x1, x2 ,..., xk a na os - o y postupne ich početnosti ni
(absolútne, resp. relatívne). Tieto body potom pospájame. 1
2
3
4
5
xi
2. histogram (stĺpcový diagram) - pri jeho zostrojovaní na os - o x nanášame hodnoty x1, x2 ,..., xk a konštruujeme obdĺžniky s rovnakou šírkou nad týmito bodmi (t.j. každý z bodov x1, x2 ,..., xk je v strede šírky obdĺžnika), a ktorých výška závisí od početnosti. Obsah obdĺžnikov je tak priamo úmerný početnostiam. Ak zobrazovaná veličina je spojitá, je zvykom, že stĺpce k sebe tesne priliehajú. V opačnom prípade nechávame medzi nimi medzery.
ni 12
12
8
8
4
4
0
0 1
2
3
4
5
xi
1
2
3
4
5
xi
KDE SA NEPOMÝLIŤ? PRÍKLAD 3.1. V televízii bola často vysielaná reklama na žuvačky ORBIT. Ako dôkaz výnimočnosti týchto žuvačiek bol použitý graf, ktorý zaznamenával hodnotu pH v ústach. Samozrejme, že vyvolával vynikajúci dojem, pretože žuvačka ORBIT spôsobovala, že pH v ústach začalo neobyčajne rýchlo stúpať. Nikto z nás však nevie, po akom čase pH kleslo na udávanú hodnotu, po akom čase stúplo a po akom čase znova klesne. Taktiež nevieme, aký veľký rozdiel je medzi minimálnou a maximálnou zakreslenou hodnotu pH. Tento graf totiž nemal udané jednotky na súradnicových osiach. Rovnako nebolo jasné, ako sa mení hodnota pH v ústach prirodzeným spôsobom, t.j. bez žuvačky. Jediné, čo sme mohli vidieť, bolo to, že na osi o x sa zakresľoval čas a na osi o y pH a že graf prudko klesal a po žuvačke začal prudko rásť. ZAPAMÄTAJTE SI: GRAF MUSÍ BYŤ DOSTATOõNE POPÍSANÝ!
3. Grafické znázornenia
PRÍKLAD 3.2. V roku 1998 bol v novinách publikovaný článok, ktorý poukazoval na výhody zemného plynu a predpovedal, že už budúci rok „na zemný plyn pôjdu škodovky a autá s volkswagenovským motorom“. Opisované výhody zemného plynu oproti nafte boli doplnené vhodne orezaným grafom, ktorý zaznamenával náklady na ročnú prevádzku autobusu v tisícoch Sk. Náklady na ročnú prevádzku autobusu
350 tis.Sk/rok
PRÍKLAD 3.3. Obrázok, v ktorom sú zakreslené súčasne dva rôzne grafy, t.j. grafy s inými stupnicami na osi o y , môže ľahko zavádzať kvôli svojej neprehľadnosti. Príkladom môžu byť grafy zaznamenávajúce vývoj akcií, s ktorými sa často stretneme v novinách. Ďalšou ukážkou je aj tento graf, ktorý zaznamenáva emisie štátnych pokladničných poukážok SR. Okrem iného tento graf obsahuje aj druhú chybu, keďže počiatok osí o y týchto dvoch grafov nie je totožný. ZAPAMÄTAJTE SI: NEPOROVNÁVAJTE DVA GRAFY,
400
KTORÉ SÚ VEDĽA SEBA ALEBO V JEDNOM OBRÁZKU A MAJÚ ROZDIELNE STUPNICE!
300 250 200 150 NAFTA
ZEMNÝ PLYN
Skutočné ani približné hodnoty sa v tomto grafe nedajú ľahko odčítať, pretože chýba mriežka. Stĺpec pre naftu je tmavý a stĺpec pre zemný plyn naopak svetlý. Tento farebný efekt spolu s orezaním posilňuje dojem, že cena nafty je približne dvakrát vyššia ako cena zemného plynu. Ak však tento graf zakreslíme správne, zistíme, že skutočný pomer je približne 4:3. Náklady na ročnú prevádzku autobusu 400 300 tis. Sk/rok
3. Grafické znázornenia
ZAPAMÄTAJTE SI: GRAF, V KTOROM JE TOHO PRÍLIŠ VEĽA, BÝVA VÄõŠINOU NEPREHĽADNÝ! PRÍKLAD 3.4. Obr.1 znázorňuje 15 000 rýb. Akú veľkú rybu máme nakresliť, aby znázorňovala dvakrát toľko rýb, t.j. 30 000 rýb? Dvakrát vyššia a širšia ryba (obr.4) bude pôsobiť akoby bola 4 až 5 - krát väčšia a naopak: ryba plošne dvakrát väčšia (obr.3) bude vyzerať iba o trochu väčšia a ryba s dvojnásobným objemom (obr.2) sa bude od ryby na prvom obrázku líšiť iba nepatrne.
200 100 0 NAFTA
ZEMNÝ PLYN
ZAPAMÄTAJTE SI: OREZANÝ GRAF MÔŽE SKRESĽOVAŤ SKUTOõNOSŤ!
ZAPAMÄTAJTE SI:
OBRÁZKY MAJÚ SPRAVIDLA GEOMETRICKÝ VÝZNAM!
4. Štatistická závislosť dvoch znakov
4. ŠTATISTICKÁ ZÁVISLOSŤ DVOCH ZNAKOV Niekedy u prvkov štatistického súboru zisťujeme viac znakov naraz. Vtedy môžeme zisťovať, či medzi hodnotami skúmaných premenných existuje nejaká jednoduchá závislosť, napríklad priama alebo nepriama úmernosť. No ide tu iba o matematické závislosti. Závislosti nazývame cudzím slovom korelácie. Korelácie je možné hľadať hocikde. Napríklad medzi telesnou výškou a váhou určite existuje tesná súvislosť, ale medzi dobrými známkami a telesnou výškou už pravdepodobne taký tesný vzťah existovať nebude, hoci ani to nie je vylúčené. Korelačný počet je presný matematický postup, výsledkom ktorého sú číselné údaje, ktoré hovoria o závislosti dvoch alebo viacerých znakov. Túto súvislosť pre dvojicu veličín x a y vyjadruje tzv. korelačný koeficient r ( x, y ) . Správanie každej z premenných je charakterizované jej strednou hodnotou a rozptylom. Korelačný koeficient, okrem charakteristických hodnôt jednotlivých znakov, vyžaduje vyjadrenie ich spojenia. Štatistika túto súvislosť vyjadruje pomocou tzv. štatistickej kovariancie. Štatistická kovariancia sa označuje k ( x, y ) , alebo cov( x, y ) , pričom: k ( x, y )
1 n 1
n
i 1
xi x y i y .
Ak je známa hodnota k ( x, y ) , korelačný koeficient r ( x, y ) sa vypočíta podľa vzorca: r ( x, y )
k ( x, y ) . sx s y
Hodnota korelačného koeficientu je z intervalu 1,1 a vyjadruje tzv. lineárnu mieru závislosti znakov x a y . Často rozlišujeme malú, miernu a silnú koreláciu.
4. Štatistická závislosť dvoch znakov
Ak
r ( x, y ) 0,3 ,
miera lineárnej závislosti znakov x a y
0,3 r ( x, y ) 0,8 ,
je malá. miera lineárnej závislosti znakov x a y
r ( x, y ) 0,8 ,
je mierna. miera lineárnej závislosti znakov x a y
je silná. (Zapamätajte si však, že uvedené číselné hranice sú vecou názoru, resp. dohody.) Dá sa dokázať, že ak veličiny x a y sú nezávislé, potom ich korelačný koeficient je nulový. Ak však korelačný koeficient je nulový, ešte to neznamená, že veličiny x a y sú nezávislé. (Ich závislosť totiž môže byť nelineárna.)
KDE SA NEPOMÝLIŤ? Dôležité je stále pamätať, že ak aj pomocou štatistiky zistíme medzi znakmi pozitívnu koreláciu, ešte sme nezistili nič o vzťahu príčiny a dôsledku. Korelácia nám na jednej strane môže poskytnúť dôležité poznatky, ale na druhej strane môže byť aj náhodná, zdanlivá, či úplne bezvýznamná. Navyše sa nám môže stať, že ju preceníme, alebo nedoceníme. Aby sme sa pri zisťovaní závislostí vyhli nesprávnym záverom, musíme každý výrok prísne overiť: PRÍKLAD 4.1. „Pekné počasie je oveľa nebezpečnejšie ako hmla.“ „Posteľ je najnebezpečnejším miestom pobytu.“ Zvláštne tvrdenia, ale predsa sa dajú dokázať. Prvé je dokázateľné vďaka tomu, že viac nehôd sa stáva za pekného počasia, keďže býva častejšie a vďaka tomu, že keď je pekne, viac sa cestuje. Napriek tomu je hmla pre šoférov nebezpečnejšia. Druhé tvrdenie sa dá
4. Štatistická závislosť dvoch znakov
dokázať kvôli tomu, že nepomerne viac ľudí zomiera na posteli ako na ulici, na mori, či pri nehodách. Podobne by sa dalo veľmi ľahko dokázať, že existuje takýto vzťah: „Čím viac áut, tým viac samovrážd.“ Môžeme to tvrdiť z jednoduchého dôvodu: čím je mesto väčšie, tým viac áut v ňom jazdí a tým viac samovrážd sa v ňom stane. Veľkosť mesta je tretím faktorom, ktorý pôsobí na počet áut, ale tiež na počet samovrážd. ZAPAMÄTAJTE SI: ZDANLIVÚ KORELÁCIU VÄõŠINOU SPÔSOBUJE NEJAKÝ TRETÍ FAKTOR! PRÍKLAD 4.2. Dalo by sa ľahko dokázať, že čím viac prší v nejakej oblasti, tým vyššia kukurica vyrastie a budeme mať väčšiu úrodu. Dážď je potrebný preto, aby úroda bola dobrá, ale len v správnom množstve. Jar s príliš veľkými zrážkami ju môže poškodiť, či dokonca úplne zničiť. Množstvo zrážok a rast úrody je priamo úmerný, ale iba po určitú hranicu. Úroda sa v závislosti od zrážok nebude zvyšovať do nekonečna. Od istej hodnoty množstva zrážok už platí niečo iné. Čím viac dažďa, tým menej úrody pozbierame. Podobné je to aj s koreláciou medzi množstvom soli v jedle a jeho chuťou. Ak budeme zvyšovať dávku soli, jedlo sa postupne začne stávať chutnejším. Ale raz dosiahneme bod, od ktorého sa chutnosť jedla začne znižovať, pretože soli bude príliš veľa. V tomto bode sa doteraz pozitívna korelácia stáva negatívnou. Čím viac soli, tým menej chutné jedlo. ZAPAMÄTAJTE SI: KORELÁCIE SÚ PLATNÉ IBA V OBLASTI, DO KTOREJ PATRIA NAMERANÉ HODNOTY! PRÍKLAD 4.3. Ak by bolo naším cieľom dokázať určité tvrdenie, stačí ak budeme trpezlivo hľadať nejakú malú vzorku, na ktorej ho dokážeme. Je totiž veľmi pravdepodobné, že ak si vyberieme malú vzorku, nájdeme
4. Štatistická závislosť dvoch znakov
významnú koreláciu medzi akoukoľvek dvojicou charakteristík. Raz síce dokážeme medzi sledovanými znakmi závislosť, ale ak sa o to pokúsime po nejakom čase znova, výsledok bude negatívny. Je to podobné ako v prípade, keď pri dokazovaní toho, že naša zubná pasta znižuje počet kazov, zahodíme výsledky prieskumu, ktoré sa nám nehodia a publikujeme tie, ktoré podporujú naše tvrdenia. ZAPAMÄTAJTE SI: KORELÁCIA JE NIEKEDY ZISTENÁ NÁHODNE!
5. Princípy testovania štatistických hypotéz
5. PRINCÍPY TESTOVANIA ŠTATISTICKÝCH HYPOTÉZ Dôležitou súčasťou matematickej štatistiky je testovanie (overovanie) hypotéz na základe výsledkov pokusu. Štatistická hypotéza je každý predpoklad alebo výrok, ktorý sa týka celého základného súboru. Testovanie štatistickej hypotézy spočíva v overovaní správnosti nášho predpokladu na základe náhodného výberu. Hypotéza, ktorú testujeme, sa nazýva základná (nulová) hypotéza H 0 . Hypotéza, ktorú staviame proti nulovej hypotéze, sa nazýva alternatívna hypotéza H1 . Alternatívna hypotéza je vlastne druhá možnosť, ktorú musíme uvažovať v prípade, že náš predpoklad (nulová hypotéza) neplatí. Alternatívna hypotéza H1 nemusí byť jednoduchou negáciou nulovej hypotézy H 0 , pretože môže v sebe zahìňať iba určitú časť možností, ktoré prichádzajú do úvahy, ak H 0 neplatí. Napríklad, ak H 0 je „Novovyvinutý liek je rovnako účinný ako štandardný.“, potom H1 môže byť „Novovyvinutý liek je účinnejší ako štandardný.“ alebo „Novovyvinutý liek je buó menej alebo viac účinnejší ako štandardný.“ Pretože overovanie štatistických hypotéz sa zakladá na skúmaní výberových súborov, podlieha tiež náhodným chybám, ktoré nazývame chybami prvého a druhého druhu. Chyba prvého druhu spočíva v zamietnutí nulovej hypotézy H 0 , hoci je správna. Chyba druhého druhu spočíva v nezamietnutí nulovej hypotézy H 0 , hoci je nesprávna. Pravdepodobnosť chyby 1. druhu je číslo a nazývame ho hladina významnosti testu. Pravdepodobnosť chyby 2. druhu označujeme a doplnkovú pravdepodobnosť 1 nazývame sila testu. Ideálne by bolo, keby sme súčasne dokázali minimalizovať pravdepodobnosť chyby prvého aj druhého druhu. Keďže však tieto
5. Princípy testovania štatistických hypotéz
dve chyby sú nepriamo úmerné (t.j. ak napríklad sa približuje k 0, potom sa naopak blíži k 1), vždy sa zvolí hladina významnosti pevne a na tejto hladine sa potom minimalizuje . Navyše pri pevnej hladine chyby 1. druhu je veľkosť hladiny chyby 2. druhu nepriamo úmerná rozsahu výberu.
KDE SA NEPOMÝLIŤ? PRÍKLAD 5.1. Príkladom chýb 1. a 2. druhu môže byť výroba ľubovoľného výrobku. Ak sa testuje kvalita výroby, výrobca aj odberateľ musí podstúpiť určité riziko. Výrobcovi sa môže stať to, že síce vyrobil dobrý tovar, ale že skoro všetky zlé výrobky sa dostali do výberového súboru. Tým sa hypotéza, že výroba spĺňa normu, zamieta, hoci sa zamietnuť nemala, lebo bola správna (chyba 1. druhu). Odberateľovi sa zas môže stať, že náhodný výber je podstatne lepší než akosť celej dodávky. Odberateľ hypotézu o dobrej kvalite výrobkov nemôže
5. Princípy testovania štatistických hypotéz
zamietnuť, hoci v skutočnosti sa mala zamietnuť, lebo bola nesprávna (chyba 2. druhu). ÚLOHA 5.1. Predstavte si takúto situáciu: Ste na vyučovaní, kde učiteľ skúša žiaka. Každé skúšanie je len výberovou analýzou. Z „nádoby“ mozgu sú vyťahované „guľôčky“ vedomostí alebo nevedomostí a z toho sa usudzuje celkový stav vedomostí v mozgu. Nie je vylúčené, že nastanú aj takéto situácie: a) ëiak má veľké medzery vo vedomostiach, ale učiteľ volí také otázky, na ktoré sa žiakovi podarí správne odpovedať. Tak sa hypotéza o nevedomosti žiaka nemôže zamietnuť, hoci je nesprávna. b) ëiak má len malé medzierky, ale učiteľ od neho vyžaduje práve to, čo nevie. Dôsledkom toho je, že hypotéza „òiak učivo ovláda.“ sa zamieta, hoci je správna. V obidvoch situáciách určte, chyby ktorého druhu sa učiteľ dopustí. ZAPAMÄTAJTE SI: PRI TESTOVANÍ VŽDY MÔŽETE SPRAVIŤ CHYBU 1. ALEBO 2. DRUHU! PRÍKLAD 5.2. Newtonovská mechanika (ide o známu históriu fyziky) sa dlho považovala za nespochybniteľnú a jedine možnú. Až keď sa vedci začali zaoberať elementárnymi časticami, zrazu zistili, že newtonovská mechanika dáva chybné predpovede a že v danej oblasti neplatí. Mnohým to vtedy pripadalo ako otrasenie samotných základov vedy. Až neskôr vedci porozumeli, že predpoklady, ktoré prirodzene platia pre tuhé telesá, nie sú vo svete elementárnych častíc splnené. Hypotéza, o ktorej svet predtým ani netušil, že je hypotézou, o univerzálnej platnosti newtonovskej mechaniky, však bola vyvrátená. Na tieto okolnosti musíme myslieť vždy, keď sa domnievame, že môžeme hypotézu dokázať. Hypotéza v reálnom svete totiž nemôže byť priamo dokázaná, môže byť iba zamietnutá alebo nezamietnutá. Ak všetky dáta, ktoré máme doteraz k dispozícii, hovoria v prospech našej hypotézy, nedáva to žiadnu záruku, že niekedy
5. Princípy testovania štatistických hypotéz
v budúcnosti nemôžeme naraziť na dáta, ktoré spôsobia zamietnutie hypotézy.
ZAPAMÄTAJTE SI: HYPOTÉZU V REÁLNOM SVETE NIKDY NEMÔŽETE DOKÁZAŤ, MÔŽETE JU IBA ZAMIETNUŤ ALEBO NEZAMIETNUŤ! PRÍKLAD 5.3. Štatistika je veda, ktorá používa matematiku, ale robí závery o reálnom svete. Preto z hľadiska štatistiky hypotézu nikdy nemôžeme dokázať. V matematike je to trochu iné, pretože tu budujeme svoje závery na presne stanovených a dohodnutých axiómach, ktoré nemusia korešpondovať s reálnym svetom. A preto sa hypotézy v matematike dajú aj dokázať. Aj v matematike však existujú hypotézy, o ktorých platnosti zatiaľ nič nevieme. Jednou z nich je Sierpinskeho hypotéza o prvočíslach. W. Sierpinski sa pýta, či ak budeme písať prirodzené čísla od 1 do nekonečna pod seba do riadkov tak, že budeme vytvárať trojuholník, bude v každom riadku počnúc druhým aspoň jedno prvočíslo? 1 2 4 7 11 16
3 5 8 12 17
6 9 13 18
10 14 19
15 20
21 ...
Keby sme sa túto hypotézu pokúsili dokázať len pomocou výpočtov (napr. na počítači), t.j. doplňovaním ďalších a ďalších riadkov tabuľky, nikdy by sme nemohli s istotou povedať, že hypotéza platí, aj keby všetky doterajšie riadky mali spomínanú vlastnosť. Akonáhle by
5. Princípy testovania štatistických hypotéz
sme vêak našli riadok, ktorý by túto vlastnosť nemal, mohli by sme hypotézu s istotou zamietnuť. Našťastie v matematike poznáme aj iné metódy dôkazu. ZAPAMÄTAJTE SI: HYPOTÉZA V MATEMATIKE MÔŽE BYŤ AJ DOKÁZANÁ!
5. Princípy testovania štatistických hypotéz
6. Regresia
6. REGRESIA Okrem číselnej hodnoty korelačného koeficientu, ktorá je mierou sily závislosti, poznáme aj iný spôsob, ako charakterizovať závislosť dvoch pozorovaných znakov. Tento druhý spôsob spočíva v zostrojovaní tzv. regresných kriviek, ktorými sa vyjadruje kvantitatívny trend závislosti. Pri najjednoduchšej - lineárnej závislosti sú regresné krivky vlastne priamkami. Hovoríme o jediných dvoch priamkach, lebo ide o dve závislosti - závislosť prvého znaku na druhom a o závislosť druhého znaku na prvom. Význam týchto regresných priamok je v tom, že miera závislosti, čiže korelačný koeficient, sledovaných znakov x a y sa dá navyše zistiť podľa veľkosti uhla, ktorý obe priamky zvierajú. Čím menší je tento uhol, tým vyššia je korelácia, čím väčší je uhol, tým viac korelácia klesá. Ak je uhol regresných priamok pravý, medzi charakterizovanými znakmi je nulová korelácia, t.j. znaky sú lineárne nezávislé. Opačný extrém nastáva vtedy, keď regresné priamky splývajú. Vtedy každej hodnote x odpovedá presne vypočítaná hodnota y , t.j. znaky x a y sú lineárne závislé. Krajné prípady sa však reálne takmer nevyskytujú. Parametre regresnej priamky sa dajú určiť napríklad pomocou metódy najmenších štvorcov. Dôležité je vedieť, že regresná priamka musí spĺňať podmienku, že súčet štvorcov (druhých mocnín) vzdialeností bodov y x, y od tejto priamky (v smere zvislej osi) je minimálny. Ak regresná priamka (závislosti znaku x na y ) má rovnicu a. x b y , potom x potrebujeme nájsť minimum súčtu všetkých týchto vzdialeností:
6. Regresia
n i 1
yi a.xi b 2 .
Pretože to nastane v jedinom prípade,
s a b y r ( x, y ) . y x , aj regresná priamka sx sx závislosti x na y je jediná a má tvar:
keď a r ( x, y ) .
sy
y y r ( x, y ) .
sy sx
x x .
KDE SA NEPOMÝLIŤ? PRÍKLAD 6.1. Ak sú dva znaky nezávislé, hodnota ich korelačného koeficientu je nulová. Pokúsme sa však nájsť také znaky x a y a ich rozdelenie, aby boli závislé a aby aj ich korelačný koeficient bol nulový. x
-1
0
1
y
1
0
1
Nech znak x nadobúda iba hodnoty -1, 0 a 1 a nech y x 2 . Toto je zhrnuté v tabuľke: Z tejto tabuľky vieme vypočítať kovarianciu znakov x, y : x 0, y k ( x, y )
1 2
1 2 1 2
(1 0).(1 12 ) (0 0).(0 12 ) (1 0).(1 12 ) 12 0 12 12 .0 0
Aj korelačný koeficient r ( x, y ) 0 , a pritom znaky x a y boli závislé. ZAPAMÄTAJTE SI:
6. Regresia
NEZÁVISLOSŤ ZNAMENÁ, ŽE KORELAõNÝ KOEFICIENT BUDE NULOVÝ! NULOVÝ KORELAõNÝ KOEFICIENT VŠAK VŽDY NEZARUõUJE NEZÁVISLOSŤ! PRÍKLAD 6.2. Regresnou priamkou a korelačným koeficientom vyjadrujeme iba lineárnu závislosť dvoch znakov. Okrem tejto závislosti poznáme aj parabolickú, hyperbolickú, exponenciálnu, logaritmickú, alebo inú závislosť. Regresné krivky v spomínaných prípadoch majú tvar paraboly, hyperboly, alebo tvar exponenciálnej, či logaritmickej funkcie. Nezabudnime však na to, že: ZAPAMÄTAJTE SI: AK ZNAKY NIE SÚ LINEÁRNE ZÁVISLÉ, NEZNAMENÁ TO, ŽE SÚ NEZÁVISLÉ! ZAPAMÄTAJTE SI: AK NAMERANÝMI HODNOTAMI VIEME PRELOŽIŤ NAPRÍKLAD PARABOLU, NEZNAMENÁ TO, ŽE ZÁVISLOSŤ TÝCHTO ZNAKOV BUDE URõITE PARABOLICKÁ! Dôvodom posledného tvrdenia je to, že naše pozorovanie je obmedzené na určitý interval a o tom, ako to vyzerá mimo neho, nevieme povedať nič. Ukážeme si to na probléme populačnej explózie. Vývojom obyvateľstva sa zaoberáme z úcty k najstaršej vetve štatistiky, ale aj kvôli tomu, že populačná explózia je životne dôležitý problém. Pri prognózach vývoja počtu obyvateľov však môžeme ľahko upadnúť do omylov. Mnohé predpovede o počte obyvateľov na svete v roku 2000, vyslovené rôznymi skupinami štatistikov, sa zakladali na údajoch z roku 1800, keď na svete bolo asi 775 miliónov obyvateľov, z roku 1850 – 1,1 miliardy, z roku 1900 – 1,6 miliardy, z roku 1950 – 2,4 miliardy. Predpoklady boli rôzne: viac než 3 miliardy, viac než 6 miliárd, 4,4 miliardy, 3,5 miliardy, 3,25 miliardy alebo
6. Regresia
3,35 miliardy. Súčasné údaje hovoria o 6 miliardách, čím ukazujú, že tempo rastu sa zmenilo. Pre porovnanie uvádzaných predpovedí skúsme zakresliť rôzne spôsoby, ako sa dá týmito štyrmi bodmi preložiť krivka, ktorá nám povie niečo o počte obyvateľov v roku 2000. Poznáme veľa rôznych typov takýchto kriviek (modelov), my sme si vybrali lineárny, všeobecný mocninný, polynomický 2. a 5. stupňa a exponenciálny. Každý z týchto modelov vychádza z určitých predpokladov o spôsobe öalšieho vývoja. O tom, aké sú tieto predpoklady, hovorí už samotný názov modelu. Pri všeobecnom mocninnom, polynomickom a exponenciálnom modeli si navyše môžeme všimnúť, že trendy predpovedí sú takmer zhodné v rokoch, v ktorých boli číselné údaje o počte obyvateľov známe a začínajú sa podstatne líšiť až v nasledujúcich rokoch. Rozdielne predpovede pre rok 2000 a 2050, líšiace sa od seba aj viac ako o miliardu, si môžeme všimnúť na obrázku. ZAPAMÄTAJTE SI: O TOM, õO JE MIMO INTERVALU, V KTOROM STE POZOROVALI, NEVIETE S ISTOTOU POVEDAŤ NIõ!
7. Niekoľko zaujímavých úloh a príkladov
7. NIEKOĽKO ZAUJÍMAVÝCH ÚLOH A PRÍKLADOV ÚLOHA 7.1. Uveďte dôvody, pre ktoré si myslíte, že vzorka ľudí, ktorá sa dotelefonuje do televíznej relácie SITO, je alebo nie je reprezentatívna. ÚLOHA 7.2. Pokúste sa preformulovať otázku, ktorá bola uverejnená v dotazníku o drogách, aby bola jednoznačná a zrozumiteľná: „Ak by si niekedy užil heroín, myslíš si, že v tomto dotazníku by si povedal: užil som - áno - asi áno - asi nie - nie?“ ÚLOHA 7.3. Pokúste sa zaradiť do správnej kategórie tieto tvrdenia: a) „Priemerne človek v živote otvorí 25 000 dvier, zdolá 45 000 schodov, zohne sa 12 000 - krát, vynesie 10 ton tašiek.“ b) reklama firmy Gratex International: „Expandujúca firma rozširuje priestory. Skutočne veľká firma si prenajme priestrannø dom.“ ÚLOHA 7.4. Vyhľadajte v rôznych literárnych časopisoch údaje o dĺžke Veľkého čínskeho múru alebo o maximálnej rýchlosti, ktorú dosiahne sokol sťahovavý, a porovnajte ich presnosť. PRÍKLAD 7.1. V našej republike je jedným z problémov aj nezamestnanosť. Jej výskyt sa udáva v percentách. Samozrejme, že vláda sa usiluje o zníženie miery nezamestnanosti a rok 1998 je toho príkladom. Vláda
7. Niekoľko zaujímavých úloh a príkadov
v tomto roku porovnávala údaje, ktoré neboli porovnateľné, a tak sa jej naozaj podarilo ukázať, že v roku 1998 klesol počet nezamestnaných. Všetko však spočíva v novej metodike, ktorá bola zvolená od decembra 1997. Podľa pôvodnej metodiky by síce nezamestnanosť na konci roku 1997 dosiahla 13,4%, ale nová metodika hovorí, že to bolo iba 12,5%. Ak sa teraz pozrieme na údaj z konca roku 1996, ktorý bol 12,8%, vidíme, že nezamestnanosť v skutočnosti vzrástla o 0,6 percentuálneho bodu. Oficiálne výsledky Národného úradu práce však hovorili o zlepšení o 0,3 percentuálneho bodu, pretože porovnávali údaj z konca roku 1996 (12,8%) s údajom z konca roku 1997 (12,5%) vypočítaného podľa novej metodiky. V roku 1998 dosiahla miera nezamestnanosti podľa starej metodiky 14,9%, ale podľa metódy vymyslenej vtedajšou vládou to bolo iba 13,9%. Táto nová metodika spočívala v tom, že oficiálna miera nezamestnanosti sa prestala vypočítavať z počtu evidovaných nezamestnaných na úradoch práce, ale vychádzala iba z počtu disponibilných nezamestnaných. To sú takí, ktorí sú ihneď po predložení ponuky pracovného miesta schopní nastúpiť do práce. Rozdiel tvoria napríklad ľudia, ktorí sú v procese rekvalifikácie alebo dočasne pracovne neschopní.
7. Niekoľko zaujímavých úloh a príkladov
ÚLOHA 7.5. Matematik N. L. Gibreath vo svojej hypotéze o prvočíslach vyjadruje otázku: Ak do prvého riadku napíšeme všetky prvočísla a ďalší riadok budeme vytvárať tak, že do neho zapíšeme absolútne rozdiely každých dvoch susedných čísel z predchádzajúceho riadku, bude potom na začiatku každého riadku počnúc druhým jednotka? Pokúste sa zistiť niečo o platnosti tejto matematickej hypotézy! 2
3 1
5 2
1
7 2
0 1
11 4
2 2
1
2 2
0 2
1
13
17 ... 4
2 0
0 2
7. Niekoľko zaujímavých úloh a príkadov
ÚLOHA 7.8. Pokúste sa v novinovom článku o tzv. Guinnessovej knihe kriminality v SR z roku 1999 nájsť logickú chybu: „Každých 5,6 minúty bol spáchaný jeden trestný čin. Každých 68 hodín bola spáchaná vražda, každých 57 hodín znásilnenie, každých 7 hodín lúpež a každých 11 hodín vydieranie. Pri krádežiach sa dá čas merať na minúty, pretože krádež bola spáchaná každých 8,5 minúty. Každých 18,7 mintúty bola spáchaná krádež vlámaním. Ku krádeži motorového vozidla došlo približne každú minútu.ù ÚLOHA 7.9. Nepozornosťou musela vzniknúť chyba na tomto obrázku. Určte, o akú chybu ide.
ÚLOHA 7.6. Ak rozdiel dvoch prvočísel je rovný 2, nazývame tieto prvočísla prvočíselné dvojčatá. Doteraz nedokázanou matematickou hypotézou je, že počet prvočíselných dvojčiat je nekonečný. Myslíte si, že je ľahšie ju dokázať alebo vyvrátiť? ÚLOHA 7.7. Niekedy sa dá výpočtom získať nezmysel, ktorý je založený na nesprávnej a nekontrolovanej extrapolácii. Všimnite si, aký bol trend počtu mobilných telefónov rok počty mobilov v SR v našej republike. 1192 1 500 1993 3 200 Podobne ako počet 1994 6 000 televízorov v domácnostiach 1995 10 000 na začiatku ich rozvoja 1996 25 000 mnohonásobne vzrástol, 1997 220 000 vzrástol v posledných rokoch 1998 540 000 aj počet mobilných telefónov. Pokúste sa určiť, koľko mobilov by malo byť podľa týchto údajov v SR v roku 2010, ak by sa ich počet stále rovnako zvyšoval?
ÚLOHA 7.10 .Ktoré stĺpce sú zakreslené nesprávne?
7. Niekoľko zaujímavých úloh a príkladov
ÚLOHA 7.11. Určte, ktorú číselnú charakteristiku pravdepodobne použili pri tomto zaujímavom zistení: „Pizza za 6 sekúnd!“, keď okrem toho sa v novinovom článku uvádza, že pizze piekli 4 pekári a podarilo sa im upiecť 6 490 kusov pizze za 12 hodín. ÚLOHA 7.12. Pokúste sa vysvetliť, prečo toto tvrdenie je skôr zdanlivou ako skutočnou koreláciou: „Sledovaním televízie k obezite!“ PRÍKLAD 7.2. Záložný dom SaS Slovensko raz poskytoval pôžičky so 4% - ným mesačným úrokom. Na prvý pohľad sa zdá, že je to malý úrok a výhodná pôžička, ale skúsme vypočítať, aké číslo by sme museli uviesť, keby sme chceli poznať ročný úrok tejto pôžičky. Ak si na začiatku roka požičiame 100 Sk, prvý mesiac musíme zaplatiť navyše 4% zo 100 Sk, čiže 100.1,04 Sk. Druhý mesiac musíme zaplatiť naviac 4% zo sumy, ktorú sme mali zaplatiť po prvom mesiaci, t.j. 100.1,042 Sk atď. Na konci roka sa suma, ktorú potrebujeme uhradiť, zvýši približne až na 160 Sk, keďže 100.1,0412 160. To znamená, že z pôvodného 4% - ného mesačného úroku sa zrazu stal 60% - ný ročný úrok. S takým vysokým ročným úrokom by si mnohí z nás pôžičku nezobrali. ÚLOHA 7.13. Finančná a leasingová spoločnosť Euromax raz poskytovala pôžičky s 0,5% - ným a s 0,3% - ným denným úrokom. Pokúste sa vypočítať, s akým ročným úrokom boli tieto pôžičky poskytované. PRÍKLAD 7.3. Samotné percentá hovoria veľmi málo, alebo dokonca vôbec nič. Ak sa o absolútnych číslach mlčí, alebo sa neuvádzajú údaje pre porovnanie, často je to kvôli tomu, že sa chce niečo skryť.
7. Niekoľko zaujímavých úloh a príkadov
Krásnou ilustráciou je udalosť, ktorá sa stala pred dlhým časom v USA. Hopkinsova univerzita v spomínanom období začala prijímať za študentov aj ženy a niekto, kto nebol veľmi informovaný o spoločnom vzdelávaní, uverejnil o nej šokujúce číslo: „33,3% študentiek Hopkinsovej univerzity sa vydalo za svojich učiteľov.“ Situácia sa vyjasnila, keď sa uviedli aj absolútne čísla. V tom čase na univerzite študovali tri ženy, z ktorých jedna sa vydala za svojho učiteľa. ÚLOHA 7.14. Napíšte aspoň 2 rôzne spôsoby, akými by ste si mohli vysvetliť reklamný pútač zberne a predajne fotografií FOTOLAB: „Každá 10. zákazka ZADARMO!“. ÚLOHA 7.15. Nájdite v tomto článku, kde došlo k istému posunu pojmov, čiže k zmene témy: „Celosvetové štatistiky hovoria, že až 60% fajčiarov tvoria mladiství. ÷tatistiky ukazujú, že nárast mladistvøch fajčiarov pokračuje. Zatiaľ, čo v roku 1977 fajčilo 30% z celkového počtu mladøch ľudí vo svete, v súčasnosti ich je až 60%....“. ÚLOHA 7.16. V roku 1998 dostali v našej republike ocenenie Humanitný čin roka dvaja chlapci, ktorí zachránili 6 ľudských životov. Na prvý pohľad by sa nám táto informácia mohla zdať postačujúca, až kým by sme sa nedozvedeli, že jeden z chlapcov zachránil jedno dievčatko a druhý chlapec sám zachránil až 5 ľudí. Vypíšte všetky ostatné možnosti, ktoré mohli nastať.
7. Niekoľko zaujímavých úloh a príkladov
ÚLOHA 7.17. Pokúste sa odhadnúť obsahy plôch práčok aj žehličiek na obrázku a porovnajte ich s uvedenými číselnými údajmi. Na tomto základe vyslovte záver.
7. Niekoľko zaujímavých úloh a príkadov
8. RADY NA ZÁVER Týchto 5 otázok vám môže pomôcť pri pohľade na rôzne štatistiky. Ak na ne dokážete odpovedať (ale nezabudnite, že nie každá štatistická informácia, s ktorou sa stretnete, sa dá takto ľahko otestovať), mnoho tvrdení vo vás nevyvolá falošný dojem.
1. KTO TO HOVORÍ? To znamená, pýtajte sa, za akým účelom sú publikované štatistické údaje? Účelom totiž môže byť dobrá reputácia, peniaze, senzácia a podobne. Niekedy môže byť zlá štatistika skrytá za hlavičkou, ktorá má dobré meno. Ak niečo uverejňuje štatistický úrad, ešte to neznamená, že všetky uvádzané tvrdenia budú správne, hoci by také mali byť. Okrem toho si musíte všimnúť, kto vyslovuje závery. Niekedy sú štatistické dáta znehodnotené práve komentármi redaktorov, ktorí potrebujú uverejniť dobrý príbeh.
2. ODKIAĽ SA TO VIE? Vždy sa musíte pýtať, odkiaľ štatistické tvrdenia pochádzajú? (súvisí to s reprezentatívnosťou výberu, s formuláciou otázok kladených v dotazníkoch a s nezistiteľnými či nepodloženými tvrdeniami) Ako prebiehal výskum? òo sa pýtali? Vzorka populácie bola vybratá, alebo sa vybrala sama? Koľkých ľudí a ktorých ľudí sa pýtali? Je vzorka dosť veľká, aby dovoľovala spoľahlivý záver? Je korelácia dostatočne veľká na to, aby niečo znamenala? Na tieto otázky nebudete vždy vedieť odpovedať. Ako čitatelia nemôžete robiť testy významnosti, alebo robiť presné závery o adekvátnosti vzorky. Ale môžete napríklad zistiť, že počet pozorovaní bol veľmi malý na to, aby vás záver mohol v niečom presvedčiť.
3. ČO CHÝBA? Nie vždy sa dozviete všetky informácie. ñtatistika, na ktorú sa smieme spoľahnúť, uvádza absolútne údaje, udáva rozsah výberového súboru a, ak je to možné, uvádza aj niektoré údaje o spôsobe zisťovania a o spoľahlivosti danej vzorky. Dobrá štatistika poskytuje prehľadne spracované údaje, prípadne matematické súvislosti medzi číslami, uvádza priemerné hodnoty a ich typ, smerodajné odchýlky, intervaly spoľahlivosti, prípadne vysvetľujúce poznámky.
4. NEZMENIL NIEKTO TÉMU? Odpovedať na túto otázku tiež nebude jednoduché, pretože to vyžaduje nájsť výhybku medzi číslami a záverom. Niekedy stačí trochu zmeniť slovosled a už je výsledkom diametrálne odlišné tvrdenie.
5. MÁ TO ZMYSEL? Ak sa vám podarí nájsť odpoveď aj na poslednú otázku, často objavíte nesprávnu štatistiku založenú na nedokázanom predpoklade. Mnoho štatistík je zjavne falošných, ale napriek tomu pôsobia ako správne. V tejto fáze by ste si mali klásť tieto a im podobné podotázky: Nie je v tejto štatistike matematická alebo logická chyba? Nie sú uvádzané čísla až fantasticky presné? Nedokazuje sa niečo mimo oblasti, do ktorej patria namerané hodnoty?