2012 PSYCHOLOGIE A SOCIOLOGIE
Analýza dat v ekonomii (dříve St.met. a demografie) Matěj Bulant
STATISTICKÉ METODY A DEMOGRAFIE (kombinovaná forma, 8.4., 20.5. 2012)
© Matěj Bulant, Ph.D., VŠEM
Řekli o statistice „Věřím pouze těm statistikám, které jsem sám zfalšoval.“ W. Churchill
„Tři stupně lži - lež, hnusná lež, statistika.“ B. Disraeli
„Sedíš li jednou půlkou v ledu a druhou na rozpálených kamnech, je ti statisticky velmi příjemně.“ „Statistika nám říká, že už teď je na světě víc lidí, než je potřeba k přenesení i toho nejtěžšího piána. Pokud neučiníme přítrž rozmnožování, nebude v roce 2000 už kde servírovat večeři, ledaže budeme ochotni prostírat na hlavách cizích lidí. Pak se ti lidé nebudou smět pohnout hodinu, než se najíte.“ H. Allen
„Smrt jednoho muže je tragédie, smrt milionu je jen pouhá statistika.“ J.V.Stalin
Probíraná témata 8.4. Popisná statistika (1. část)
20.5. Popisná statistika (2. část) Teorie odhadu Časové řady Indexní analýza
17.6. Úvod do demografie Řešení příkladů
I. Popisná statistika Obecný úvod Základní statistické pojmy Statistické šetření Tabulky četností Souhrnné charakteristiky Grafická znázornění dat
Obecný úvod
Indukce - proces zobecňování poznatků, například přenášením závěrů z výběru na celou populaci. Dedukce - z obecných zákonitostí (teorie) činíme závěry (predikce) pro jednotlivé případy (pozorování).
Základní statistické pojmy Hromadné jevy a procesy - jevy a procesy vyskytují se u velkého množství prvků. Statistická jednotka – popisovaný prvek, u kterého jsou sledovány různé vlastnosti. Statistický znak (proměnná)- zachycuje určitou vlastnost statistické jednotky. Statistický soubor – soubor statistických jednotek, u kterých sledujeme stejné znaky. o základní soubor (populace) – soubor všech statistských prvků daných výčtem, nebo vymezením některých společných vlastností. o výběrový soubor – část jednotek základního souboru Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter.
Statistika jako pojem Číselné údaje o hromadných jevech. Praktická činnost spočívající ve sběru, zpracování a vyhodnocování statistických údajů. Teoretická disciplína, která se zabývá metodami sloužícími k popisu a odhalování zákonitostí při působení podstatných, relativně stálých činitelů na hromadné jevy.
Klasifikace proměnných statistický znak
kvalitativní (kategoriální)
kvantitativní
diskrétní
spojité
nominální
ordinální (pořadové)
Klasifikace proměnných Kvantitativní- nabývají číselných hodnot (hmotnost, délka, pevnost, cena, doba, životnost) Diskrétní - nabývají pouze oddělených číselných hodnot (počet vad, kusová produkce apod.) Spojité - nabývají všech hodnot z nějakého intervalu reálných čísel (rozměr výrobku, doba do poruchy, cenový index apod.)
Kvalitativní - nemají číselný charakter a lze je vyjádřit slovně (barva, jakostní třída, tvar) Ordinální - slovní hodnoty má smysl uspořádat (jakostní třídy, klasifikace apod.) Nominální - slovní hodnoty postrádají význam pořadí (barva, tvar, dodavatelé apod.) Dichotomická (alternativní ) – nabývá pouze dvou různých hodnot (pohlaví )
Statistické šetření
Projekt „restaurace“ 1)
Založení restaurace - vyhodnocení dostupných informací (popisná statistika)
2)
Plánování v rámci provozu restaurace (teorie odhadu)
3)
Výsledky provozu restaurace po prvním roce (časové řady)
4)
Srovnání výsledků restaurace (indexní analýza)
Příklad 1 pořadí respondenta 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Počet jídel v restauraci 4 3 2 1 1 0 4 3 2 2 1 1 0 5 2 18 2 5 1 5 1
Zeptali jsme se 21 respondentů na otázku: „Kolikrát za měsíc jdete do restaurace na jídlo?“
Kolik máme statistických jednotek a které to jsou? Kolik máme proměnných a jakého jsou typu? Je uvedený soubor respondentů základním souborem nebo výběrovým souborem? Sestavte tabulku četností pro proměnnou „Počet jídel v restauraci“
Tabulky četností Podává informaci o počtu (četnosti) výskytu jednotlivých variant znaku v souboru Absolutní/relativní četnosti
Varianta znaku xi
x1 x2 xk
Celkem
Četnost
Kumulativní četnosti
Absolutní ni
Relativní pi
absolutní
relativní
n1 n2 nk
p1 p2 Pk
n1 n1 + n2
P1 P1 + P2
x
x
Intervalové rozdělení četností Interval 100 – 120 120 – 140 140 – 160 160 – 180
četnost n1 n2 n3 n4
střed intervalu 110 130 150 170
Celkem
n
x
Výsledky Celkem máme 21 statistických jednotek. Představují respondenty, kterých jsme se ptaly na počet jídel v restauraci za měsíc. Celkem máme jednu proměnnou, která se jmenuje „jídla v restauraci“. Jedná se o kvantitativní a nespojitou proměnnou. Jedná se o výběrový soubor. Základní soubor by byli všichni obyvatelé dané čtvrti nebo města.
Tabulka četností: „Počet jídel v restauraci“
varianta znaku
absolutní četnost
relativní četnost
absolutní kumulativní četnosti
relativní kumulativní četnosti
0
2
0,1
2
0,1
1
6
0,29
8
0,38
2
5
0,24
13
0,62
3
2
0,1
15
0,71
4
2
0,1
17
0,81
5
3
0,14
20
0,95
18
1
0,05
21
1
celkem
21
1
x
x
Grafická znázornění dat a) Spojnicové a sloupkové grafy Polygon četností (spojnicový graf) – vhodné zobrazení při srovnávání struktury různých souborů. Sloupcový graf
Zdroj:ČSÚ
Grafická znázornění dat Histogram rozdělení četností – vhodný pro znázornění spojitých proměnných (intervalové rozdělení četností).
Zdroj:Žák, 2006
Grafická znázornění dat b) Bodové grafy - slouží ke znázornění závislostí mezi dvěma kvantitatvními znaky (nebo průběhové časové řady).
Zdroj:office.microsoft.com
Grafická znázornění dat c) výsečové grafy
Zdroj:office.microsoft.com
Grafická znázornění dat c) Krabičkový graf – slouží k zakreslen základních výběrových charakteristik kvantitativní proměnné.
Zdroj: Dorda, 2012
Počet objednaných jídel 7 6 5 4 3 2 1 0 0
1
2
3
4
5
18
Počet objednaných jídel
5%
10%
14%
28%
10%
0
1
2
3
4
5
18 10%
23%
Výběrové charakteristiky Výběrové charakteristiky – znázornění datového souboru pomocí číselných charakteristik
1)
Míry polohy – určují typické rozložení hodnot souboru – Střední hodnoty – kvantily
2)
Míry variability – určují variabilitu (rozptyl) hodnot kolem své typické hodnoty. – Absolutní – Relativní
3) 4)
Šikmost Špičatost
Míry polohy (střední hodnoty) aritmetický průměr Def.: součet hodnot dělený jejich počtem.
prostý tvar
vážený tvar
Míry polohy (střední hodnoty) harmonický průměr Def.: počet hodnot proměnné dělený součtem jednotlivých obrácených hodnot. Využití v případech, kdy pracujeme s proměnnou vyjadřující relativní změny (např. průměrná rychlost, průměrná délka potřebná ke splnění určitého úkonu).
prostý tvar
vážený tvar
Míry polohy (střední hodnoty) geometrický průměr Def.: n-tá odmocnina ze součinu kladných hodnot. Využívá se k výpočtu průměrného růstu.
prostý tvar modus Def.: nejčastěji se vyskytující kategorie sledované proměnné ve vztahu k nejbližšímu okolí.
vážený tvar
Míry polohy (kvantily) • p-procentní kvantil
x% p
Určení pořadí jednotky 1) Datový soubor uspořádáme vzestupně podle velikosti. 2) Seřazeným pozorováním přiřadíme pořadí od 1 do n. 3) p%-ní kvantil je potom roven pozorování s pořadím zp pojmenované kvantily • kvartily (25%, 50% a 75% kvantily) • decily (10%, 20%, ..., 90% kvantily) • percentily (1%, 2%, ..., 99% kvantily)
p p n⋅ < z p < n⋅ +1 100 100
Příklad 1, pokračování Vypočítejte průměrný počet objednaných jídel Vypočítejte průměrný počet objednaných jídel z tabulky četností Určete modus
Výsledky
Příklad 1, pokračování Určete medián proměnné „počet jídel“ a interpretujte. Určete dolní kvartil proměnné „počet jídel“ interpretujte. Určete horní kvartil proměnné „počet jídel“ a interpretujte. Jaký je rozdíl mezi průměrem a mediánem?
Výsledky •
50 % dotázaných objedná měsíčně 2 nebo méně než 2 jídla
•
25% dotázaných objedná měsíčně 1 nebo méně než 1 jídlo a současně 75 % dotázaných objedná 1 nebo více než 1 jídlo.
•
75% dotázaných objedná měsíčně 4 nebo více než 4 jídla a současně 25 % dotázaných objedná 4 nebo méně než 4 jídla.
pořadí 1 Počet objednaných jídel 0
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
0
1
1
1
1
1
1
2
2
2
2
2
3
3
4
4
5
5
5
18
Míry variability Absolutní míry variability Variační rozpětí R def.: rozdíl největší a nejmenší hodnoty znaku
Rozptyl def.: průměr čtverců odchylek jednotlivých hodnot znaku od jeho aritmetického průměru
prostý tvar
Absolutní míry variability - rozptyl
vážený tvar
Absolutní míry variability - směrodatná odchylka Jednotkou rozptylu je druhou mocninou jednotky proměnné. Směrodatná odchylka - uvedena ve stejných jednotkách jako zkoumaný statistický znak Def.: druhá odmocnina z rozptylu.
Relativní míry variability - variační koeficient Pro porovnání variability proměnných vyjádřených v různých jednotkách Bezrozměrný, vyjadřuje relativní míru variability Def.: podíl směrodatné odchylky a aritmetického průměru sledované proměnné
Příklad 2 Navštívili jsme dvě restaurace a sledovali počet objednaných jídel v průběhu stejného časového úseku. V první restauraci bylo objednáno během pěti hodin: 1,1,2,1,10 a ve druhé: 2,4,3,4,2. Pro každou restauraci spočítejte následující míry: 1. 2. 3. 4. 5.
Průměr Medián Rozptyl Variační rozpětí Variační koeficient
Výsledky porovnejte a interpretujte.
Výsledky – restaurace 1
Výsledky – restaurace 2
Rozklad rozptylu Máme-li datový soubor, který je rozdělen na skupiny a jsou-li zadané skupinové četnosti, skupinové průměry a skupinové rozptyly, počítáme celkový rozptyl pomocí rozkladu rozptylu na meziskupinovou a vnitroskupinovou variabilitu.
Rozklad rozptylu - vzorec Pokud máme statistický soubor o n jednotek rozdělen do k dílčích podsouborů, kde známe dílčí rozptyly, dílčí průměry a dílčí četnosti, potom rozptyl celého souboru je dán součtem rozptylu skupinových průměrů a průměrů ze skupinových rozptylů.
Příklad 3 Dvě restaurace nabízejí v rámci polední nabídky hotová jídla. Restaurace číslo 1 prodala za měsíc 2000 hotových jídel, za průměrnou cenu 75 Kč, cena má směrodatnou odchylku 5. Restaurace číslo 2 prodala za měsíc 1500 hotových jídel za průměrnou cenu 85 Kč, cena má směrodatnou odchylku 10 Kč. Jaký je variační koeficient ceny hotových jídel za obě cukrárny? Zajímá nás, jak variabilita ceny hotových jídel kolísá během měsíce. k
s2x = s2 X + s 2 =
∑(X
k
2 − X ) * ni i
i =1
k
∑n
i
i =1
∑s
2 ix
+
* ni
i =1
k
∑n
i
i =1
Výsledek n
n1 = 1500,
n1 = 2000, X 1 = 75,
X 1 = 85,
s1 = 5
s1 = 10
X=
∑X
1
* n1
i =1
n
∑n
=
75* 2000 + 85*1500 = 79,3 2000 + 1500
i
i =1
k
s = 2
2 s ∑ ix * ni i =1
k
∑n
52 * 2000 + 102 *1500 200000 = = = 57,1 2000 + 1500 3500
i
i =1
k
s
2 X
=
∑(X
i
− X ) 2 * ni
i =1
k
∑n
i
i =1
(75 − 79,3) 2 * 2000 + (85 − 79,3) 2 *1500 36988 + 48735 85723 = = = = 24,5 2000 + 1500 3500 3500
Výsledek s
2 x
=s
2
+ s = 24,5 + 57,1 = 81, 6 → s X = 81, 6 2
X
sX = 9 sx 9 Vx = = = 0,11 X 79,3 Relativní variabilita ceny vyjádřená variačním koeficientem je 11 %. V průběhu měsíce kolísá cena hotových jídel blízko průměrné ceny.
Šikmost a špičatost Charakteristika šikmosti – popisuje soubor hodnot sledované proměnné z hlediska koncentrace malých a velkých hodnot sledované proměnné v porovnání se symetrickým rozdělením četností. a) Pokud je koeficient šikmosti kladný = větší koncentrace malých hodnot v souboru. b) Pokud je koeficient šikmosti záporný = větší koncentrace velkých hodnot v souboru. c) Pokud je koeficient šikmosti roven nule = rozdělení hodnot je symetrické. Charakteristika špičatosti – popisuje soubor hodnot sledované proměnné z hlediska koncentrace hodnot v souboru kolem střední hodnoty (v porovnání s tzv. Gaussovou křivkou). Čím je hodnota koeficientu špičatosti vyšší, tím je rozdělení četností strmější a v souboru je vyšší koncentrace hodnot blízkých střední hodnotě.
Popisná statistika v Excelu • • •
Každá funkce v Excelu má své klíčové slovo. Průvodce funkcí (tlačítko fx na začátku stavového řádku). Je třeba zadat do závorky z čeho má být příslušná funkce počítána.
Funkce pro popisnou statistiku POPISNÁ CHARAKTERISTIKA Rozsah souboru Aritmetický průměr Harmonický průměr Geometrický průměr Modus Medián 25 % kvartil Součet hodnot Rozptyl Výběrový rozptyl Směrodatná odchylka Výběrová směrodatná odchylka Maximum Minimum Šikmost Špičatost
NÁZEV FUNKCE V EXCELU =POČET =PRŮMĚR =HARMEAN =GEOMEAN =MODE =MEDIAN =PERCENTIL =SUMA =VAR =VAR.VÝBĚR =SMODCH =SMODCH.VÝBĚR =MAX =MIN =SKEW =KURT
2. Teorie odhadu Odhadování vlastností (parametrů) celého základního souboru (populace) na základě výběrového souboru a jeho výběrových charakteristik zevšeobecňující úsudek Předpokladem zobecňujících úsudků je náhodný výběr při získávání jednotek do výběrového souboru (losování, výběr pomocí tabulek náhodných čísel, systematický výběr). K odhadu charakteristiky nelze využít jakoukoliv charakteristiku, ale takovou, která splňuje určitá kritéria: 1)Nestrannosti = zvolená statistika by neměla vést k systematickému nadhodnocování nebo podhodnocování odhadované charakteristiky (zkreslení) 2)Konzistence = s rostoucím rozsahem výběru by se měl odhad charakteristiky blížit hodnotě charakteristiky základního souboru 3)Vydatnost = velikost rozptylu (čím nižší hodnoty rozptylu výběrové charakteristiky, tím menší zkreslení odhadu základní charakteristiky) 4) Dostatečnost = mimo výběrové statistiky neexistuje žádná jiná statistika, která by poskytovala další doplňující informace o odhadované charakteristice základního souboru
Bodový odhad •odhadované charakteristiky základní soubor s (sigma), m (mí), p (pí)
• základní střední hodnota
• základní rozptyl
µˆ = x
σˆ 2 = s′2
• základní relativní četnost
πˆ = p
Bodový odhad Odhadujeme parametr ZS pomocí jednoho čísla. Neznámou hodnotu G ZS odhadneme pomocí vypočítané hodnoty vhodné výběrové charakteristiky g.
Intervalový odhad intervalový odhad = interval, který bude s vysokou pravděpodobností obsahovat skutečnou hodnotu odhadované charakteristiky základního souboru • interval spolehlivosti:
1−α
= 95 (99)
• odhadované charakteristiky • základní střední hodnota • při známém základním rozptylu
σ σ P x − u1−α / 2 < µ < x + u1−α / 2 = 1−α n n
• při neznámém základním rozptylu; velký rozsah výběru
s ′x s ′x P x − u1−α / 2 < µ < x + u1−α / 2 = 1−α n n • při neznámém základním rozptylu; malý rozsah výběru
s ′x s ′x P x − t1−α / 2 < µ < x + t1−α / 2 = 1−α n n
• základní rozptyl 2 (n − 1) s ′ 2 ′ − ( n 1 ) s 2 x x < < P σ 2 χ12−α / 2 χ α/2
= 1−α
• základní relativní četnost
P p − u1−α / 2
p (1 − p ) < π < p + u1−α / 2 n
p (1 − p ) = 1−α n
• stanovení rozsahu souboru u12−α / 2σ 2 u12−α / 2π (1 − π ) n≥ n≥ , 2 2
∆
∆
n ≥ 0,25
u12−α / 2
∆2
Příklad 4 Po prvním měsíci (květen) fungování restaurace jste zjistili, že průměrně prodáte denně 85 hotových jídel. Dále jste zjistili, že denní rozptyl počtu hotových jídel je 25. Na základě tohoto výběru odhadněte střední hodnotu dosaženého prodeje hotových jídel za rok a sestrojte 95 % interval spolehlivosti pro tuto střední hodnotu. ∧
µ X = X = 85
σ σ P X − u1−α /2 * ≤ µ ≤ X + u1−α /2 * = 1−α n n
Výsledek
5 5 ≤ µ ≤ 85 + 1.96* P 85 − 1,96* = 0,95 31 31
P ( 80, 6 ≤ µ ≤ 89,39 ) = 0,95
Příklad 5
1.
Rozhodli jste se přilákat nové zákazníky a provedli jste proto změny v jídelním lístku. Poté jste náhodně oslovili 320, z nichž 59 bylo s novou nabídkou nespokojeno. Odhadněte procento spokojených zákazníků.
2.
Sestrojte 95 % dvoustranný interval spolehlivosti pro odhad nespokojených zákazník.
3.
Jaký je nejmenší podíl nespokojených zákazníků s novou nabídkou za výše daných podmínek.
Výsledek
3. Časové řady definice časové řady: posloupnost hodnot sledovaného ukazatele, která je uspořádána v čase.
• typy časových řad A) Dle rozhodného okamžiku intervalové (určitý časový interval, např. 1 rok) okamžikové (k určitému časovému okamžiku, např. k 31. 12. 2012) B) Dle délky krátkodobé (méně než 1 rok) dlouhodobé • stanovení průměrné hodnoty
n
∑ yt y=
t =1
n
n −1 1 1 y n −1 + y n y1 + y 2 y 2 + y 3 y + ∑ yt + y n 1 + + ... + 2 2 t =2 2 2 2 y= = n −1 n −1
• základní míry dynamiky • diference ∆yt = yt - yt-1
n
∑ ∆yt
y n − y1 ∆= = n −1 n −1 t =2
• koeficient růstu
yt kt = y t −1
k =
n −1 k
2 k 3 ...k n
= n−1
yn y1
Příklad 6 Vyjádřete dynamiku vývoje zisku restaurace pomocí absolutních přírůstků zisku a koeficientu růstu zisku. Určete průměry těchto charakteristik za dané období.
Výsledek
Dynamika vývoje ziskovosti restaurace (2012-2013) 70 60 50 40 30 20 10 0 V.12
VI.12
VII.12
VIII.12
IX.12
X.12
XI.12
XII.12
I.13
II.13
III.13
IV.13
V.13
Dekompozice časové řady Tt – trendová složka = vyjadřuje dlouhodobé změny ve vývoji proměnného chování sledovaného ukazatele St – sezónní složka = pravidelně se opakující výkyvy ve vývoji sledovaného ukazatele vzhledem k trendu Ct – cyklická složka = kolísání v rámci období delším než 1 rok Εt = náhodná nesystematická složka
• aditivní model
yt=Tt + St + Ct + εt
• multiplikativní model
yt=Tt St Ct εt
Typy trendů přímka: Tt = β 0 + β1t 2 T = β + β t + β parabola: t 0 1 2 t T = β β exponenciála: t 0 1
Příklad 7 Vyjádřete dynamiku vývoje zisku restaurace pomocí trendové přímky. Pomocí této přímky odhadněte výši zisku v květnu 2014.
Výsledek 300,85 − 34, 23*7 b1 = = 4,37 63 − 49 b0 = 34, 23 − (4,37 *7) = 3, 62 Tt = 3, 62 + 4,37 * 25 = 112,87 Předpokládaný zisk květnu 2014 bude 112 870,- Kč.
modelování trendu a) regresní přístup k modelování trendu • trendové funkce
Tt = f(t)
b) adaptivní přístupy k modelování trendu • exponenciální vyrovnávání • jednoduché: Yt = αyt + (1 - α)Yt-1 • metoda klouzavých průměrů • délka klouzavého průměru • popis sezónnosti • sezónní odchylky • sezónní indexy • extrapolace v časových řadách
Klouzavé průměry
m = 2 p +1 7 = 2 p +1 p=3
23 + 34 + 46 + 59 + 67 + 89 + 96 Yt (7) = = 59 7
4. Indexní analýza Index –bezrozměrné číslo vyjadřující změnu sledovaného ukazatele mezi dvěma obdobími nebo místech srovnání v relativním vyjádření. Ι diference – číslo vyjadřující změnu sledovaného ukazatele mezi dvěma obdobími nebo místech srovnání (ve stejných měrných jednotkách jako sledovaný ukazatel). ∆ • bazický index versus řetězový index • individuální indexy jednoduché (p,q,Q)
složené (Σq,ΣQ,ppr)
• souhrnné (cenové a množstevní) • Paascheho, Laspeyresův, Fisherův index
• individuální indexy jednoduché • cenový
ip =
p1 p0
• množstevní
q1 iq = q0
• hodnotový
Q1 iQ = Q0
• individuální indexy složené • množstevní
Iq
q ∑ = ∑q
1 0
• hodnotový
Q1 ∑ IQ = ∑ Q0
• cenový
• rozklad 1
• rozklad 2
p Ip = 1 = p0
p Ip = 1 = p0
p Ip = 1 = p0
∑ p1q1 ∑ q1 ∑ p0 q0 ∑ q0
∑ p1q1 ∑ q1 ∑ p0 q0 ∑ q0
∑ p1q1 ∑ q1 ∑ p0 q0 ∑ q0
=
=
=
∑ Q1 ∑ q1 ∑ Q0 ∑ q0
∑ p1q1 ∑ p0 q1 ∑ q1 . ∑ q1 ∑ p0 q1 ∑ p0 q0 ∑ q1 ∑ q0
∑ p1q0 ∑ p1q1 ∑ q0 . ∑ q1 ∑ p0 q0 ∑ p1q0 ∑ q0 ∑ q0
Souhrnné indexy cenové indexy
• Laspeyresův
• Paascheho
LIp =
∑ p1 q0 ∑ p0 q0
p1 q1 ∑ P I p= ∑ p0 q1
p1 ∑ p p0 q0 0 LI p = ∑ p0 q0 p1q1 Q1 ∑ ∑ = P I p= p1 q1 Q1 ∑ p1 ∑ i p
p0 • Fisherův
F Ip =
L I p . PI p
Objemové indexy • Laspeyresův
• Paascheho
• Fisherův
L Iq
∑ = ∑
P Iq
∑ = ∑
F Iq =
p 0 q1 p0 q0
p1q1 p1q 0
L Iq . PIq
Nárožní 2600/9a,158 00, PRAHA 5 tel. +420 841 133 166
[email protected]
www.vsem.cz