Statisztika
Eloszlásjellemzők
Statisztikai adatok elemzése
A sokaság jellemzése középértékekkel
A sokaság jellemzésének szempontjai A sokaság jellemzésének szempontjai: A sokaság tipikus értékének meghatározása. Az adatok különbözőségének vizsgálata, jellemzése. A sokaság eloszlásgörbéjének elemzése. A sokaság tipikus értékeinek meghatározása középértékekkel történik. A középértékek olyan mutatószámok, melyekkel a bevezetőben megfogalmazott követelményeknek eleget téve könnyen, jól lehet tömören jellemezni a sokaságot vagy mintát. Középértékekkel szembeni követelmények: Egyértelműen és algebrailag könnyen számítható legyen. Tipikus, jellemző érték legyen. Szemléletesen, jól lehessen értelmezni. Közepes helyzetet foglaljanak el.
Középértékek Csoportosítása: Számított középértékek:
Harmonikus átlag Mértani átlag Számtani átlag Négyzetes átlag
Helyzeti középértékek: Módusz Medián
Számított középértékek – számtani átlag A számtani átlag az a szám, amelyet az átlagolandó értékek helyére írva azok összege változatlan marad. Jele: x
Kiszámítási módja: Legyenek X1, X2, ..., XN egy sokaság elemei, ekkor a sokaság elemeinek átlaga: n
Egyszerű számtani átlag
x=
x1 + x 2 +...+x n = n
∑
xi
i =1
n k
Súlyozott számtani átlag
f ⋅ x + f2 ⋅ x 2 +...+ fk ⋅ x k = x= 1 1 f1 + f2 +...+ fk
∑
fi x i
i =1 k
∑ i =1
fi
Számtani átlag – egyszerű gyakorisági sor alapján Egy tanácsadó cég szakértői díjai (eFt/hó): 30, 25, 28, 32, 35, 32, 34, 32, 40, 42 28 + 32 + ... + 42 x= = 33 eFt 10
A tanácsadó cég szakértői díja átlagosan 33 eFt/hó.
Számtani átlag – osztályközös gyakorisági sor alapján Egy tanácsadó cég szakértői díjai (Ft/nap): Szakértői díj(Ft/nap)
Gyakoriság (fő)
Osztályközép (xi)
10.001-30.000
38
20000
30.001 - 50.000
84
40000
50.001 - 70.000
104
60000
70.001 - 100.000
49
85000
100.001 - 150.000
16
125000
150.001 – 200.000
9
175000
300
-
Összesen
Számtani átlag k
f ⋅ x + f2 ⋅ x 2 +...+ fk ⋅ x k = x= 1 1 f1 + f2 +...+ fk
∑
fi x i
i =1 k
∑
fi
i =1
x=
38 ⋅ 20.000 + 84 ⋅ 40.000+ 104⋅ 60.000+ ... + 9 ⋅175.000 17.910.000 = = 60.333,3 38 + 84 + 104 + ... + 9 300
A tanácsadó cég szakértői díja átlagosan 60.333,3 Ft/nap
Számtani átlag tulajdonságai
Az egyes elemek - átlagolandó értékek - átlagtól való eltéréseinek összege 0: n
∑ (x
i
- x) = 0
i =1
Ha minden egyes elemhez hozzáadunk egy "a„ konstans értéket, az így kapott elemek számtani átlaga éppen "a"-val tér el az eredeti elemek átlagától, azaz ha x1, x2, ..., xn, átlaga x , akkor x1 + a; x2 + a; ...; xn + a átlaga x+ a lesz Ha minden egyes elemet megszorzunk egy "b" konstans értékkel, akkor az így kapott elemek átlaga éppen "b"-szerese lesz az eredeti elemek átlagának, azaz ha x1, x2, ..., xn átlaga x , akkor b ⋅ x1; b ⋅ x2; ...; b ⋅ xn átlaga b ⋅ x lesz Ha az x1, x2, ..., xn elemek átlaga x, az y1, y2, ..., yn elemek átlaga y , akkor az x1 + y1; x2 + y2; ...; xn + yn átlaga x + y lesz. Az elemek mindegyikéből egy tetszőleges "a" állandót levonva ezen eltérések négyzetösszege akkor lesz minimális, ha az "a" állandó éppen az x , azaz n 2 ∑ ( xi - a) = minimális, ha a = x i =1
Számtani átlag előnyei
A számtani átlag a legtöbb ember számára világos, érthető fogalom, számítása egyszerű.
Minden adathalmazból egyértelműen kiszámítható, s ugyanakkor pontosan egy van belőle.
A számtani átlag segítségével összehasonlíthatjuk ugyanazon típusú számszerű jellemző alakulását két vagy több különböző sokaság vagy minta esetén.
A számtani átlag a sokaság vagy minta minden egyes elemének figyelembe vételével kerül kiszámításra, így "nem veszítünk információt".
A számtani átlag kiszámításához valójában nem szükséges az egyedi értékek ismerete, elegendő azok összegét tudni, s ezáltal meghatározható az átlagos érték.
Számtani átlag hátrányai
A kiugróan alacsony vagy kiugróan magas értékek hatással vannak az átlagos érték nagyságára. Probléma merül fel a számtani átlag számításával kapcsolatban osztályközös gyakorisági sor alkalmazása esetén is. Nyitott osztályközök használata.
Helyzeti középértékek – Medián A rangsorba rendezett adatok közül a középső elemet mediánnak nevezzük. Jele: Me
Páratlan tagszám esetén: Egy tanácsadó cég szakértői díjai (eFt/nap) 30, 25, 28, 32, 35, 32, 34, 32, 40, 42, 43 Rangsor: 25, 28, 30, 32, 32, 32, 34, 35, 40, 42, 43
11+ 1 11 elem esetén a 2 = 6. elem lesz a medián, azaz 32 eFt/nap. A tanácsadó cég
szakértői díjainak egyik fele 32eFt/nap-nál alacsonyabb míg a másik fele magasabb.
Helyzeti középértékek – Medián Páros tagszám esetén: Egy tanácsadó cég szakértői díjai (eFt/nap) 30, 25, 28, 32, 35, 32, 34, 32, 40, 42 Rangsor: 25, 28, 30, 32, 32, 32, 34, 35, 40, 42 10 + 1 10 elem esetén a = 5,5. elem lesz a medián, azaz 32 eFt/nap. 2
A tanácsadó cég szakértői díjainak egyik fele 32e Ft/nap-nál alacsonyabb míg a másik fele magasabb.
Medián – osztályközös gyakoriság esetén Szakértői díj(Ft/nap)
Gyakoriság (fő)
Kumulált gyakoriság (fő)
Osztályközép (xi)
10.001-30.000
38
38
20000
30.001 - 50.000
84
122
40000
50.001 - 70.000
104
226
60000
70.001 - 100.000
49
275
85000
100.001 - 150.000
16
291
125000
150.001 – 200.000
9
300
175000
300
-
-
Összesen
Medián – osztályközös gyakoriság esetén n ′ -1 − f me 150 − 122 Me = me + 2 ⋅ h = 50.000 + ⋅ 20.000 = 55.385 Ft / nap f me 104 me
= a mediánt tartalmazó osztályköz alsó határa, vagy az azt megelőző osztályköz felső határa
f'me-1
= a mediánt tartalmazó osztályközt megelőző osztályköz kumulált gyakorisága, azaz hogy a mediánt tartalmazó osztályköz előtt hány elem található;
fme
= a mediánt tartalmazó osztályközhöz tartozó gyakoriság, azaz a mediánt tartalmazó osztályközben összesen hány elem található;
h
= a mediánt tartalmazó osztályköz hossza;
n
= az elemek száma;
Medián tulajdonságai Előnyei: A medián is - hasonlóan a számtani átlaghoz - egyértelműen meghatározható, azaz minden adathalmaznak létezik mediánja és pontosan egy van belőle. A medián azonban nem csak mennyiségi jellemzők esetén határozható meg, hanem rangsorba rendezhető minőségi ismérvek esetén is. A medián értéke független a szélső értékektől, csak a középső vagy középső két elem nagysága befolyásolja. Hátrányai: Csak rangsorba rendezett elemekből számítható. Ha egy minta alapján akarunk következtetni a teljes sokaság eloszlására, akkor a számtani átlag matematikai-statisztikai szempontból alkalmasabb mutatószám.
Helyzeti középértékek - Módusz A módusz a leggyakrabban előforduló elemet jelenti. Jele: Mo Jellemzői:
A módusz előnye, hogy nem csak mennyiségi, hanem minőségi jellemzők esetén is meghatározható.
Hasonlóan a mediánhoz a módusz sem érzékeny a szélső, kiugró értékekre.
A módusz hátránya, hogy nagyon gyakran nem alkalmas az eloszlás jellemzésére, ugyanis nem minden esetben létezik, vagy előfordulhat, hogy több is van belőle, azaz nem egyértelmű.
Mintapélda: Egy tanácsadó cég szakértői díjai (Ft/nap) 30, 25, 28, 32, 35, 32, 34, 32, 40, 42 Rangsor: 25, 28, 30, 32, 32, 32, 34, 35, 40, 42
Módusz értéke A tanácsadó cég leggyakrabban 32 eFt/nap díjat számol fel.
Medián – osztályközös gyakoriság esetén k1 Mo = mo + ⋅h k1 + k 2
mo = a móduszt tartalmazó, un. modális osztályköz alsó határa, k1 = a modális osztályköz és az azt megelőző osztályköz gyakoriságának különbsége, k2 = a modális osztályköz és az azt követő osztályköz gyakoriságának különbsége h = a modális osztályköz hossza.
Módusz – osztályközös gyakoriság esetén Szakértői díj (Ft/nap)
Gyakoriság (fő)
Osztályközép (xi)
10.001-30.000
38
20000
30.001 - 50.000
84
40000
50.001 - 70.000
104
60000
70.001 - 100.000
49
85000
100.001 - 150.000
16
125000
150.001 – 200.000
9
175000
300
-
Összesen
Mo = mo +
k1 104 - 84 ⋅ h = 50.000 + ⋅ 20.000 = 55.333 Ft / nap k1 + k 2 104 - 84 + 104 - 49
További átlagformák Mértani (geometriai) átlag Alkalmazása: Akkor használjuk, ha az átlagolandó értékek szorzata értelmezhető. Leggyakrabban a láncviszonyszámok átlag Mértani (geometriai) átlag az a szám, amelyet az egyedi értékek helyére írva azok szorzata változatlan marad. Jele: x g Képlete - Kiszámítási módja x1, x2, ..., xn egyedi értékek esetén
- Osztályközös gyakorisági sor esetén
xg =
n
n
π xi
i =1
xg = fi
n
n
π xi
i =1
Mintapélda – mértani átlag Magyarországon a hússertés felvásárlási árának változása Hónap
Változás (előző hónap = 100%)
1997. március április május június július augusztus
110 105 110 100 110 125
Feladat: Állapítsuk meg a havi átlagos árváltozás mértékét a vizsgált időszakban! Megoldás:
x g = 6 1,1 ⋅ 1,05 ⋅ 1,1 ⋅ 1,00 ⋅ 1,1 ⋅ 1,25 = 1,097 A vizsgált időszakban a felvásárlási ár havonta átlagosan 9,7%-kal nőtt.
Harmonikus átlag Alkalmazása
Harmonikus átlagot akkor számíthatunk, ha az elemek reciprokának és a reciprokok összegének van valamilyen tárgyi értelme. Elsősorban intenzitási viszonyszámok esetén értelmezhető
Harmonikus átlag az a szám, amelyet az egyes átlagolandó értékek helyére írva azok reciprokösszege változatlan marad. Jele: xh Kiszámítási módja x1, x2, ..., xn elemek esetén xh =
n n
∑ i =1
1 xi
xh =
n n
∑ i =1
fi xi
Mintapélda – harmonikus átlag Egy elektronikai cég termelésére vonatkozó adatok Megnevezése
Termelés
Termelékenység
Férfi
180
30
Nő
225
25
Összesen
Termelékenység (V ) =
xh = V =
termelés(db) A = létszám( fő ) B
225 + 180 = 27 225 180 + 25 30
Tehát az üzemet jellemző átlagos termelékenység 27 db/fő.
Négyzetes átlag A négyzetes átlagot akkor használjuk, ha: nem kívánjuk figyelembe venni az átlagolandó értékek előjelét, ha azt akarjuk, hogy az átlag a szélsőségesen nagy értékekre érzékenyen reagáljon. A négyzetes (kvadratikus) átlag az a szám, amellyel az átlagolandó értékeket helyettesítve, azok négyzetösszege változatlan marad. Jele: xq Kiszámítási módjai: n
xq =
∑
k
xi2
i =1
n
xq =
∑f
i
⋅
xi2
i =1
i =1
∑g i =1
k
∑f
xq =
k
i
i
⋅ xi2
Kvantilisek A leggyakrabban előforduló kvantilisek k 2 3 4 5 10 100
A kvantilis megnevezése Medián Tercilis Kvartilis Kvintilis Decilis Percentilis
A kvantilis jelölése Me T1, T2 Q1 (alsó kvartilis); Q2; Q3 (felső kvartilis) K1, K2, K3, K4, D1, D2, …, D9, P1, P2, …, P99
Jellemzőik: A középértékek mellett fontos helyzetmutatók a kvantilisek. A kvantilisek meghatározásánál a sokaságban megkeressük azt az osztópontot, amelynél az ismérvértékek fele, negyede, tizede, stb. kisebb, a többi pedig nagyobb értékű. A kvantilisek becslésének menete azonos a mediánnál ismertetett eljárással.
Mintapélda - kvartilisek Egy tanácsadó cég szakértői díjai (eFt/óra) 30, 25, 28, 32, 35, 32, 34, 32, 40, 42 Rangsor: 25, 28, 30, 32, 32, 32, 34, 35, 40, 42 Az alsó kvartilis (Q1) sorszáma: A második elem értéke: 28; A harmadik elem értéke: 30; Így:
10 + 1 = 2,75 4
28 + 30 = 29 2 Tehát a tanácsadó cég az esetek negyedében (25%) 29 eFt-nál kevesebb szakértői díjat számolt fel,, háromnegyede (75%-a) pedig többet.
A felső kvartilis (Q3) sorszáma: A nyolcadik elem értéke: 35; A kilencedik elem értéke: 40; Így:
Q1 =
3(10 + 1) = 8,25 4 Q3 =
35 + 40 = 37,5 2
Tehát a tanácsadó cég az esetek háromnegyedében (75%) 37,5 eFt-nál kevesebb szakértői díjat számolt fel negyede (25%-a) pedig többet.
Sokaság/minta jellemzése szóródási mutatókkal Szóródáson azonos fajta számszerű értékek különbözőségét értjük. A legfontosabb szóródási mérőszámok: terjedelem (R) interkvartilis terjedelem (IQR) átlagos eltérés (δ) szórás (σ vagy s) relatív szórás (V) átlagos (abszolút) különbség (G)
A szóródás terjedelme A terjedelem az előforduló elemek között a legnagyobb és a legkisebb érték különbsége: R = xmax - xmin A mutatószám kifejezi, hogy mekkora értékközben ingadoznak az ismérvértékek. Alkalmazásának a hátrányai:
Osztályközös gyakorisági sorból nem is mindig számítható, hiszen gyakran az osztályközök határai csak jelzésértékűek, vagy nincsenek megadva, azaz nyitott osztályköz áll rendelkezésünkre. Nagyon érzékeny a kiugróan magas vagy alacsony értékekre.
Mintapélda: Egy tanácsadó cég szakértői díjai (eFt/hó): 30, 25, 28, 32, 35, 32, 34, 32, 40, 42 R= 42-25=17 Tehát 17 eFt annak az intervallumnak a hossza, amelyen belül a szakértői díjak mozognak. Azaz a legmagasabb, és a legalacsonyabb szakértői díj közötti különbség 17 eFt.
Interkvartilis terjedelem A gyakorlatban az elemzés során a szóródás terjedelme (R) mutatónál jobban használható az interkvartilis terjedelem. Az interkvartilis terjedelem a kvartilis értékek közötti távolság, ami a rangsorba rendezett elemek középső – tipikusnak nevezhető – 50%-ának elhelyezkedését mutatja: Képlete: IQR = Q3 − Q1
Átlagos eltérés Az átlagos eltérés az egyedi értékeknek a számtani átlagtól mért átlagos abszolút eltérését mutatja. n
Képlete:
ahol,
δ=
∑d i=1
a
i
,
d i = xi − x
Mértékegysége mindig ugyanaz, mint az alapadatoké. A gyakorlatban a szóródás jellemzésére ritkán használjuk.
Szórás A szórás az egyedi értékek átlagtól való eltéréseinek a négyzetes átlaga, az átlagtól mért átlagos négyzetes eltérés. A szóródás legfontosabb mérőszáma. Jele: σ - a teljes sokaságra nézve, s – a mintából meghatározva. Kiszámítási módjai:
n
teljes sokaság esetén
σ=
∑d
k
2 i
ill. gyakorisági sorból
i=1
n
σ =
∑
fi ⋅ d i
2
i =1
k
∑f
i
i =1
k
n
minta esetén:
s=
∑d
2 i
i =1
n -1
ill. gyakorisági sorból
s=
∑f
⋅ di
i
i=1 k
∑f i=1
i
2
−1
Mintapélda Tanácsadói díj (eFt/hó) xi
d i = x i − x d i2 = ( x i − x) 2
30
-3
9
25
-8
64
28
-5
25
32
-1
1
35
2
4
32
-1
1
34
1
1
32
-1
1
40
7
49
42 Összesen
9
81
0
236
n
σ=
∑ di i =1
n
2
=
236 = 4,86 10
Értelmezés: az egyes tanácsadói díjak az átlagostól átlagosan 4,86 eFt/hó-val tértek el.
Relatív szórás A
relatív szórás a szóródás relatív mutatója, így mértékegység nélküli, értéke %-os formában is megadható. Kifejezi, hogy az egyedi értékek átlagosan hány %-kal térnek el az átlagos értéktől. Ezt a dimenzió nélküli mutatót használjuk a különböző mértékegységű ismérvek szóródásának összehasonlítására. Képlete:
V=
σ x
s vagy V = x
Mintapélda alapján kiszámítása:
σ
4,86 V= = = 14,73% x 33
Értelmezése: az egyes tanácsadói díjak az átlagostól átlagosan 14,73%-kaltértek el.
Gyakorisági sorok vizsgálatának további módszerei
Az aszimmetria mérőszámai Az eloszlások következő típusaival foglalkozunk:
egymóduszú eloszlás szimmetrikus, aszimmetrikus (vagy ferde); többmóduszú eloszlás. Empirikus eloszlások Egymóduszú eloszlás
Szimmetrikus
Asszimmetrikus
Mérsékelten aszimmetrikus - balra ferdült - jobbra ferdült
Erősen aszimmetrikus - J alakú - fordított J alakú
A legjellegzetesebb eloszlástípusok
Többmóduszú eloszlás - U alakú - M alakú
Az aszimmetria leggyakrabban használt mérőszáma Pearson-féle mutatószám Az aszimmetria Pearson-féle mutatószáma (jele: A) a számtani átlag és a módusz nagyságrendi viszonyán alapul:
A=
A
x − Mo
σ
mérőszám előjele az aszimmetria irányát mutatja: Bal oldali, jobbra elnyúló aszimmetria esetén A > 0, Jobb oldali, balra elnyúló aszimmetria esetén A < 0. Szimmetrikus eloszlás esetén A = 0. A mérőszám abszolút értékének nincs határozott felső korlátja, azonban már 1-nél nagyobb abszolút érték meglehetősen erős aszimmetriára utal.
Mintapélda - asszimetria Egy tanácsadó cég szakértői díjai (Ft/óra) 30, 25, 28, 32, 35, 32, 34, 32, 40, 42 Rangsor: 25, 28, 30, 32, 32, 32, 34, 35, 40, 42
A=
x - Mo
σ
33 − 32 = = 0,21 4,86
Mivel A>0, a szakértői díjak eloszlása baloldali, jobbra elnyúló asszimetriát mutat.
F mutató Az alsó és felső kvartilis mediántól való eltérésének egymáshoz viszonyított nagyságán alapul. Bal oldali, jobbra elnyúló aszimmetria esetén a medián az alsó (Q1), míg jobb oldali aszimmetria esetén a felső (Q3) kvartilishez esik közelebb. Képlete: F=
(Q 3 − Me) − (Me − Q1 ) (Q 3 − Me) + (Me − Q1 )
értékének határozott felső korlátja van: F≤1. Ugyanolyan feltételek mellett ad nulla, pozitív és negatív eredményt, mint az A mutató. Az F mutató lényegesen kisebb értékkel jelzi a már nagyfokúnak tekinthető aszimmetriát, mint az A. Abszolút
Egymóduszú eloszlások
Köszönöm a figyelmet!