Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.0009
23. Matematická statistika Statistika je věda, která se snaží zkoumat reálná data a s pomocí teorii pravděpodobnosti se tato data snaží popisovat. Matematická statistika Je soubor metod sloužících k zevšeobecňování informací získaných z náhodného výběru. Řeší dva základní typy úloh: •
statistické odhady
•
testování hypotéz.
Pro matematickou statistiku je typické, že všechny závěry učiněné na jejím základě mají pravděpodobnostní charakter, tj. jsou zatíženy určitým stupněm nejistoty. Nejstarší součástí matematické statistiky je teorie chyb a vyrovnávací počet. Matematická statistika bývá někdy nazývána statistickou indukcí. Ve statistice se pracuje s několika základními pojmy, které si zde popíšeme. •
statistický soubor a jeho velikost - konečná množina nějakých dat, která chceme zkoumat. Velikost je dána počtem dat v statistickém souboru a značí se n. Data mohou být obecná, může to být v zásadě cokoliv.
•
statistická jednotka - je konkrétní prvek statistického souboru.
•
statistický znak - je to, co chceme měřit. Statistický znak může být buď kvalitativní nebo kvantitativní. Kvantitativní (kvantita = množství, počet) znak je takový znak, který je vyjádřitelný čísly (například plat, výška, počet dětí, …), kvalitativní znak je pak vyjádřitelný slovně (barva, ano/ne, zaměstnání, …).
•
četnost - může být buď relativní nebo absolutní a udává, kolik hodnot daného znaku se vyskytuje ve statistickém souboru — buď absolutně, nebo relativně vzhledem k celkovému počtu prvků souboru. 1
Takže absolutní četnost hodnoty statistického znaku n(A) udává počet výskytů daného statistického znaku ve statistickém souboru.
Relativní četnost je podíl absolutní četnosti k celkové velikosti statistického souboru: p(A) =
n( A) n … celkový počet pokusů, n(A) … kolikrát nastal jev A n
•
modus mod (x) je nejčastěji se vyskytující hodnota statistického souboru.
•
medián med(x) je: prostřední hodnota statistického souboru, v němž jsou statistické jednotky uspořádány podle velikosti a kterých je lichý počet o aritmetický průměr dvou středních statistických jednotek, pokud statistický soubor má sudý počet statistických jednotek o
•
histogram
neboli
sloupkový
diagram
je
grafické
zobrazení
absolutních (relativních) četností, používá se jsou-li hodnoty znaku sdruženy do intervalů •
polygon četností neboli spojnicový diagram je spojení bodů, jejíž první souřadnice je hodnota kvantitativního znaku a druhá souřadnice je odpovídající četnost 15 četnost
•
kde
10
kruhový
5
diagram,
0 1
2
3
4
Známka z matematiky
znaku
chlapci
dívky
výseče, jejichž plošné obsahy jsou úměrné četnostem Rozdělení řešitelů podle typu škol ; SOŠ; 6263
SOU; 2133 Gymnázia a lycea; 1174
2
různým hodnotám odpovídají kruhové
Charakteristiky polohy zahrnují: a) Aritmetický průměr:
b) Geometrický průměr:
c) Harmonický průměr:
Charakteristiky variability zahrnují: a) Variační rozpětí
R = xmax - xmin
b) Rozptyl (disperze)
c) Směrodatná odchylka
Základy popisné statistiky – rozbor příkladu: Nechť máme statistický soubor (tj. n čísel): x1, x2, …xn. Tato čísla (hodnoty náhodné veličiny) seřadíme dle velikosti od nejmenší po největší: xMIN … xMAX. Čísla seřadíme do intervalů (TŘÍD). Počet tříd k udává Sturgessovo pravidlo: k = 1 + 3,3 log n Ilustrační příklad: V hokejové lize mají brankaři úspěšnost zákroků následující: 86,2%; 88,2%; 90,1%; 89,1%; 93%; 92,7%; 93,8%; 94,2%; 95%; 93,4%; 71,2%; 99,9%. 3
Uveďte základní charakteristiky statistického souboru. Nejdříve hodnoty seřaďme: 71,2; 86,2; 88,2; 89,1; 90,1; 92,7; 93; 93,4; 93,8; 94,2; 95; 99,9 Můžeme ořezat tzv. odlehlé hodnoty, zde jsou to zjevně hodnoty 71,2 a 99,9. Velikost statistického souboru je n = 10. Statistický znak je vyjádření úspěšnosti brankáře (kvantitativní). Sturgessovo pravidlo k = 1 + 3,3 log10 = 4 říká, že tento soubor rozdělíme do 4 tříd (intervalů). Vypočteme velikost takového intervalu tak, že odečteme nejnižší hodnotu od nejvyšší a vydělíme 4, tedy (95 - 86,2) : 4 = 2,2. Máme tedy 4 třídy v intervalech 86,2-88,4; 88,4-90,6; 90,6-92,8; 92,8-95. Absolutní četnosti (počty hodnot) v příslušných třídách jsou 2, 2, 1, 5. Relativní četnosti jsou 2/10 = 1/5, 2/10 = 1/5, 1/10 a 5/10 = 1/2. Vše je možné přehledně uspořádat do tabulky rozdělení četností: interval (třída) 86,2 - 88,4 88,4 - 90,6 90,6 - 92,8 92,8 - 95
absolutní. četnost 2 2 1 5
relativní četnost 1/5 1/5 1/10 1/2
relativní četnost % 20% 20% 10% 50%
Z uvedeného je možno odvodit: n
1.
∑ p ( A) = 1 …………………… součet relativních četností je roven 1 i =1
i
n
2.
∑ n ( A) = n …………………… součet absolutních četností je roven velikosti souboru n i =1
3.
i
Součet relativních četností v procentech musí být 100%.
Modus nelze jednoznačně určit, jelikož každá hodnota se v souboru vyskytuje pouze jednou. Za medián lze vzít buď hodnotu 92,7 %, nebo 93 % (hodnoty „uprostřed“ seřazené řady). Medián med(x) = (92,7 + 93) : 2 = 92,85 Nyní vytvoříme histogram četností:
4
Histogram 3/5 Relativní četnost
1/2 2/5 3/10 1/5 1/10 0 1
2
3
4
Třída = interval četností
Aritmetický průměr úspěšnosti brankařů je x = ( 86,2 + 88,2 + … + 95 ) / 10 = 91,6 %. Rozptyl výběru je s 2 = [ (86,2-91,6)2 + (88,2-91,6)2 + … + (95-91,6)2 ] / 10 = 8,4. Směrodatná odchylka je s = 8,4 = 2,9 .
Příklady k procvičení: 1. Měřením v laboratoři byly zjištěny následující délky válečku (v milimetrech): {302;310;312;310;313;318;305;309;310;309}. Vypočítejte aritmetický, geometrický průměr, modus a medián. Řešení: Množinu čísel uspořádáme podle velikosti: {302; 305; 309; 309; 310; 310; 310; 312; 313; 318}
2. Dva myslivci, myslivec A a myslivec B soutěžili v střelbě na terč. Který střílel přesněji a soutěž vyhrál, jestliže měli následující zásahy? A = {9;8;8;8;7}, B = {10;10;8;7;5}
5
Řešení: Myslivec A
Myslivec B
Rozptyl myslivce A je s2(A) = 0,4 , myslivce B je s2(B) = 3,6. Platí s2(A) < s2(B). Lepší střílel a soutěž vyhrál myslivec A.
6