PRAVDĚPODOBNOST A STATISTIKA Doc. Ing. Dagmar Blatná, CSc.
Statistika • • •
statistické údaje o hromadných jevech činnost, která vede k získání statistických údajů a jejich zpracování teorie statistiky - věda o stavu, vztazích a vývoji hromadných jevů - popisná statistika - statistická indukce (matematická statistika) - statistická analýza
Základní statistické pojmy •
statistický soubor
základní soubor výběrový soubor
• •
statistická jednotka statistický znak
• • •
hodnoty statistického znaku - shodné : identifikační znak - proměnlivé (variabilní) = "proměnné"
Statistické proměnné ♣ slovní = kategoriální (kvalitativní) ♠ nominální ♠ ordinální • alternativní • možné ♣ číselné = numerické (kvantitativní) ♠ metrické - kardinální ♠ ordinální • spojité • nespojité (diskrétní)
POPISNÁ (deskriptivní) STATISTIKA Zpracování hodnot numerické proměnné Numerická proměnná X nabývá obměn x1, x2, … , xn n = rozsah souboru (celkový počet jednotek) k = počet skupin (obměn) (i = 1, … k ) • četnosti
k
♥
♥
absolutní
n = ∑ ni i =1
relativní
ni pi = n
k
∑p i =1
i
=1
♥
kumulativní četnosti i
•
absolutní
∑n i =1
•
relativní
i
i
∑p i =1
i
Tabulka jednorozměrného rozdělení četností Obměny četnosti znaku absolutní relativní xi ni pi
kumulativní četnosti absolutní relativní i i
∑ ni i =1
∑p
i
i =1
x1 x2 x3
n1 n2 n3
p1= n1 / n n1 p1 p2 = n2 / n n1 + n2 p1 + p2 p3 = n3 / n n1+ n2 +n3 p1 + p2+p3
•
•
•
•
•
•
•
•
•
•
xk
nk
n
1
∑
n
x
x
1
Příklad : soubor 30 domácností - sledovaný znak počet členů Obměny znaku
četnosti
kumulativní četnosti
relativní pi
absolutní
xi
absolutní ni
1
1
0,0333
1
0,0333
2
8
0,2667
9
0,3000
3
9
0,3000
18
0,6000
4
6
0,2000
24
0,8000
5
5
0,1667
29
0,9667
6
1
0,0333
30
1,0000
∑
30
1
x
x
i
∑ ni i =1
relativní i
∑p
i
i =1
GRAFY ROZDĚLENÍ ČETNOSTÍ polygon (spojnicový graf) histogram (sloupcový graf) výsečový (koláčový) graf
Skupinové (intervalové) rozdělení četností – vhodné pro velký počet variant – velikost intervalu = šířka intervalu = délka intervalu • snaha volit intervaly stejné délky • střed intervalu celé číslo – označení intervalů musí být jednoznačné
• určení počtu intervalů k v závislosti na rozsahu souboru n • Různá doporučení • např. Sturgesovo pravidlo
k= n k = 1 + 3,3 lg n
Příklad : soubor 39 osob, sledovaný znak výška Data: 156, 179, 149, 165, 168, 192, 184, 158, 189, 163, 176, ... k=
n = 39 = 6, 2
k = 1+3,3.1,59 = 7,16 • volíme počet intervalů: k = 6 rozsah hodnot 192-149=43 šíře intervalu 43:6 = 7,16 • volíme šířku intervalu 10
Tabulka jednorozměrného rozdělení četností
obměny četnosti kumulativní četnosti znaku absolutní relativní absolutní relativní i i intervaly ni pi ∑ ni ∑ pi i =1
i =1
<150
1
0,0256
1
0,0256
-160 -170 -180 -190
2 12 18 5 1 39
0,0513 0,3077 0,4615 0,1282 0,0256
3 15 33 38 39 x
0,0767 0,3846 0,8461 0,9744 1,0000 x
>190 ∑
1,0000
Charakteristiky polohy •
•
charakterizují obecnou úroveň, na níž se pohybují numerické hodnoty statistického znaku ve statistickém souboru. ♣ střední hodnoty ♦ průměry aritmetický, harmonický, geometrický ♦ medián ♦ modus
•
♣ kvantily ♦ medián ♦ kvartily ♦ decily ♦ percentily
Aritmetický průměr • prostý aritmetický průměr • •
je definován jako součet hodnot jednotek souboru dělený jejich počtem používáme v případě netříděného souboru n
∑x
x1 + x2 + ... + xn i=1 x= = n n
• •
i
vážený aritmetický průměr používáme v případě souboru rozděleného do k skupin k
x1n1 + x2 n2 + .... + xk nk x= = n1 + n2 + ... + nk
∑xn i =1 k
i
i
∑n i =1
i
Příklad : soubor 30 domácností - sledovaný znak počet členů Obměny znaku
xi
četnosti absolutní relativní ni pi
výpočty
xi ni
xi pi
1
1
0,0333
1
0,0333
2 3 4 5 6
8 9 6 5 1 30
0,2667 0,3000 0,2000 0,1667 0,0333 1
9 18 24 29 30 99
0,3000 0,6000 0,8000 9,9667 1,0000 3,3
∑
x = 3,3
Výpočet průměru ze skupinových četností k
x=
∑xn i =1 k
xi jsou skupinové průměry (lze je nahradit středy intervalů) ni jsou skupinové četnosti
i i
∑n i =1
i
Příklad : výpočet průměrné výšky skupiny 39 děvčat
xi
xstr .
xi ni
xstr ni
149
149 145
149
145
156,158
157 155
314
310
Inter.
ni
<150
1
-160
2
-170
12 163,168,165, 168 165 2016 1980
-180
18 179,173,176,. 174 175 3132 3150
-190
5
184,186, …
183 185
915
925
>190
1
192
192 195
192
195
∑
39
xi
6718 6705
výpočet pomocí skupinových průměrů
6718 x= = 172,2564 39 výpočet pomocí středů intervalů
6705 x= = 171,9231 39 který výsledek je přesnější a proč?
Vlastnosti aritmetického průměru 1. Součet odchylek jednotlivých hodnot od průměru je roven 0. 2. Aritmetický průměr konstanty je roven této konstantě. 3. Připočteme-li ke každé hodnotě xi tutéž konstantu, aritmetický průměr hodnot se zvýší o tuto konstantu 4. Vynásobíme-li všechny hodnoty stejnou konstantou k, aritmetický průměr hodnot xi se zvýší k-krát 5. Aritmetický průměr se nezmění, vynásobíme-li všechny váhy ni stejnou konstantou k. 6. Je-li yi = axi + b pak y = ax + b
Další průměry • Harmonický
•
výpočet průměrné rychlosti,
•
výpočet průměrné pracnosti…
xh =
n 1 ∑ i =1 x i n
k
xh =
• Geometrický
•
Průměrný koeficient růstu
ni ∑ i =1 ni ∑ i =1 x i k
xG = n x1.x2 x3 ...xn =
n
n
∏x i =1
i
Příklad: Výpočet průměrné rychlosti Auto jede vzdálenost 30 km. 10 km rychlostí 30 km/hod. ............ 20 min. 10 km 80 km/hod. ............ 7,5 min. 10 km 100 km/ hod...............6 min. -------------------------------------------------------------------30 km 33,5 min.= 0,5583hod
x
= 30/0,5583 = 53,73 km/hod.
30 30 xh = = = 53,73 10 10 10 0,5583 + + 30 80 100
Další střední hodnoty
• modus x) je nejčastěji se vyskytující (nejčetnější) hodnota statistického znaku v souboru
• medián x% je hodnota znaku prostřední statistické jednotky uspořádaného statistického souboru liché n sudé n
x% = x(( n+1) / 2) x% =
x( n / 2) + x(( n+2) / 2) 2
Kvantily – p % - ní kvantil x% p je hodnota numerického znaku, který odděluje p% jednotek s nejnižšími hodnotami sledovaného znaku
♦ medián ♦ kvartily ♦ decily ♦ percentily
~ x=~ x50 ~ x ,~ x 25
75
~ x10 , ~ x20 ,....., ~ x90 ~ x1 , ~ x2 ,......, ~ x99
pořadí jednotky, jejíž hodnotou je p% - ní kvantil
n. p zP = + 0,5 100
Příklad : soubor 30 domácností - sledovaný znak počet členů i
∑ ni
xi
ni
pi
1
1
0,0333
1
2
8
0,2667
9
3
9
0,3000
18
4
6
0,2000
24
5
5
0,1667
29
6
1
0,0333
30
∑
30
1
x
i =1 =1
xˆ =3
modus medián
x% =
x(15) + x(16) 2
3+3 = =3 2
dolní kvartil
30.25 z25 = + 0,5 = 8 100
x%25 = x(8) = 2
Charakteristiky variability
• míry variability
♠ měří měnlivost hodnot znaku od sebe navzájem ♠ nebo od nějaké střední hodnoty • míry variability: • absolutní nebo relativní
Absolutní míry variability ♥ variační rozpětí • • • •
R = xmax − xmin
Příklad: známky – stejný průměr 3 soubor 1: 3 3 3 soubor 2: 2 3 4 soubor 3: 1 3 5 Nevýhoda:
R1= 0 R2= 2 R3= 4
závisí pouze na extrémních hodnotách
♥ kvantilová rozpětí: ♣ kvartilové rozpětí ♣ decilové rozpětí ♣ percentilové rozpětí
RQ = ~ x75 − ~ x25 R =~ x −~ x D
90
10
RP = ~ x99 − ~ x1
rozptyl = nejpoužívanější míra variability • je definován jako aritmetický průměr čtverců odchylek hodnot od průměru k
n
s = 2 x
∑ (x − x) i =1
2
s x2 =
i
2 ( x − x ) ni ∑ i i =1
k
∑n
n
výpočetní tvar rozptylu
i =1
i
xn ∑ i i 2 2 2 sx = x − x = i=1k − i=1k ni ∑ ni ∑ i=1 i =1
rozptyl z relativních četností
k
2 x ∑ i ni
sx2 = ∑ ( xi − x ) 2 pi i =1 =1
k
2
směrodatná odchylka
s = s2
Výhoda: směrodatná odchylka má stejné jednotky jako pozorování
Výběrový rozptyl (variance)- počítá PC n
2 ′ s =
∑(x − x ) i =1
2
i
n −1
Výběrová směrodatná odchylka (standard deviation) Vztah mezi rozptylem a výběrovým rozptylem
2 ′ ′ s = s
n −1 2 s = s′ n 2 x
Vlastnosti rozptylu 1. Připočteme-li ke všem hodnotám xi konstantu k, rozptyl se
nezmění. 2. Vynásobíme-li všechny hodnoty xi konstantou k, rozptyl se zvýší k2 krát 3. Rozklad rozptylu Skládá-li se soubor z k dílčích souborů (skupin) s četnostmi ni se skupinovými průměry xi a skupinovými rozptyly si2, pak můžeme celkový rozptyl rozložit na součet dvou rozptylů, z nichž jeden charakterizuje variabilitu mezi skupinami a druhý variabilitu uvnitř skupin k
k
∑(x − x ) n ∑ s n 2
s = 2 x
i =1
i
i
k
∑n i =1
i
+
i =1 k
2 i i
∑n í =1
sx2 = sx2 + si2
i
s x2
rozptyl skupinových průměrů (variabilita mezi skupinami )
si2
průměr skupinových rozptylů (variabilita uvnitř skupin)
Příklad: Vypočítejte rozptyl souboru složeného ze tří skupin. Sk
xij
ni
1
2;4;6
3
4
8/3
2
5;5;5
3
5
3
6;7;7;8
4 10
∑
ni
xi
xi
si2
xi nxi i ni
si2
ssi2i2nni i
22
12
8
1,5
6,75
0
15
0
0,5
0,75
7
½
28
2
1,5
9,0
x
x
55
10
2 s ∑ i ni
x n 55 ∑ s = x= = = 5,5 ∑n ∑ n 10 ( x − x ) n 16,5 ∑ s = = = 1,65 10 ∑n 2
i i
xix−i −x x((xxi i−−xx)) nni i
i
i
16,5
10 = =1 10
2
2 x
i
i
i
s = 1,65 + 1 = 2,65 2 x
Variační koeficient •
Je míra relativní variability
sx Vx = x
♣ umožní porovnat variabilitu různých souborů, různých ukazatelů
v různých měrných jednotkách relativní míry variability dostaneme vydělením absolutní míry variability střední hodnotou (nejčastěji průměrnou hodnotou)
Příklad: porovnat variabilitu výšky a váhy skupiny osob sváha = 12,5 kg s výška = 18 cm 12,5 Vv = = 0,166 75 xvýška = 174 cm xváha = 75 kg 18 Vvýš = = 0,103 174
Vlastnosti variačního koeficientu ☺ Variační koeficient konstanty je nula. ☺ Násobíme-li každé pozorování toutéž konstantou, variační koeficient se nezmění. ☺ Přičteme-li ke každému pozorování tutéž konstantu, variační koeficient se sníží, odečteme-li tutéž konstantu, variační koeficient se zvýší.