Adatredukció, Leíró statisztikai eljárások Jenei Attila
A leíró statisztikák fogalma, haszna
A statisztikák fogalma általában Leíró statisztikák:
a minta elemszáma (mintanagyság) maximum minimum mintaterjedelem számtani átlag, átlagok szórás variancia variációs koefficiens rendezett minta kvantilisek medián kvartilisek percentilisek interkvartilis terjedelem
Gyakori igény az, hogy egy adathalmazt elemei egyenkénti felsorolása helyett néhány jellemző tulajdonságának megadásával jellemezzünk. Ezeket az adatokból viszonylag könnyen kiszámítható paramétereket
leíró
statisztikáknak
(vagy
pontosabban:
leíró
statisztikai függvényeknek) nevezzük.
Sok ilyen van, két legfontosabb csoportjuk az ún. elhelyezkedési és a szóródást jellemző paraméterek. Az elhelyezkedési paraméterek azt az értéket igyekeznek megadni, ami körül a mintánk elemei csoportosulnak
(ilyen
pl.
átlag,
medián)
míg
a
szóródási
paraméterek azt igyekeznek jellemezni, hogy értékeink mennyire szorosan vagy lazán helyezkednek el ekörül a pont körül (pl. szórás).
Adatok ábrázolása A változókat két csoportra osztjuk
kvantitatív…
Minden egyes egyed esetében megszámlálható, megmérhető és ezen mért adatokat lehet összeadni kivonni átlagolni….
Példa: testmagasság, életkor, szérum koleszterol szint, a birtokolt kreditkártyák száma
… kategorizálható.
Olyan paraméter, amely csak kategóriákba rendezhető. Itt az adott kategóriába eső egyedek számát lehet meghatározni.
Példa: Vércsoport (A, B, AB, O), hajszín, etnikai hovatartozás, jövedelemadót lelkiismeretesen fizetők, illetve azt kikerülők
Hogyan lehet eldönteni, hogy ez kvantitatív vagy nem? Kérdés: Mi az n egyén/mértékegység a mintában (“n” elemszám esetén)? Milyen paramétert keresünk a mintában. Ez egy szám( kvantitatív) vagy állítás, kijelentés ( kategorizálható)? Kategorizálható
Kvantitatív
Minden egyed hozzárendelhető egy kategóriához.
Minden egyedhez egy számot rendelünk.
Egyedek a mintában
DIAGNÓZIS
Életkor halálozáskor
Páciens A
Szívinfarktus
56
Páciens B
Agyvérzés
70
Páciens C
Agyvérzés
75
Páciens D
Tüdőrák
60
Páciens E
Szívinfarktus
80
Páciens F
Baleset
73
Páciens G
Diabetes
69
Különbözı ábrázolási formák
Oszlopdiagram Minden kategória egy oszloppal abrázolható
Torta diagram A szeletek jelentenek egy kategóriát az összesből
Példa: A 10 legfıbb halálozási ok az USA-ban 2001 esetszám
%-a 10 fajtának
% össz.
1 Heart disease
700,142
37%
29%
2 Cancer
553,768
29%
23%
3 Cerebrovascular
163,538
9%
7%
4 Chronic respiratory
123,013
6%
5%
5 Accidents
101,537
5%
4%
6 Diabetes mellitus
71,372
4%
3%
7 Flu and pneumonia
62,034
3%
3%
8 Alzheimer’s disease
53,852
3%
2%
9 Kidney disorders
39,480
2%
2%
32,238
2%
1%
Betegség
10 Septicemia Más okból
629,967
Az összes elhalálozott egyén adatainak feldolgozásából nyert táblázat
26%
Oszlopdiagram
A 10 legfőbb halálozási ok az USA-ban 2001 A balesetben elhunytak száma 2001-ben körülbelül 100,000.
Ca nc C er er s eb ro va Ch sc ro ul ni ar c re sp ira to ry Ac ci Di de ab nt s et es m el Fl lit u us & pn eu Al zh m on ei m ia er 's di se Ki as dn e ey di so rd er s Se pt ice m ia
ise as es
800 700 600 500 400 300 200 100 0
He ar td
Counts (x1000)
Minden kategóriához egy oszlop tartozik. Az oszlop magassága jelenti az egyes kategóriához tartozó egyedszámot, sok esetben relatív gyakoriságot.
cc id zh en ei ts m er 's di se as e
A
800 700 600 500 400 300 200 100 0
C an ce Ce rs re br ov as Ch cu ro la ni r c re sp ira Di to ab ry et es m el Fl lit us u & pn eu m on H ia ea rt di se as Ki es dn ey di so rd er s S ep t ic em ia
Al
Counts (x1000)
is ea se s
C an ce C er rs eb ro va C sc hr on ul ar ic re sp ira to ry A cc id D en ia be ts te s m el Fl lit u us & pn eu A lz m he on im ia er 's di se K as id ne e y di so rd er s S ep tic em ia
H ea rt d
Counts (x1000)
800 700 600 500 400 300 200 100 0
A 10 legfőbb halálozási ok az USA-ban 2001 Sorrendbe állított Könnyen vizsgálható
ABC szerint rendezett Kevésbé hasznos
Pie-diagram Minden szelet egy tulajdonságot tartalmaz az összesből. A szelet mérete az adott kategória százalékos értékétől függ. A legfőbb 10 halálok százalékos megoszlása az USA-ban 2001.
Fontos az adatok precíz jelölése A százalékok összegének 100-al egyenlőnek kell lenni!!!!! A halálokok százalékos eloszlása
A halálokok százalékos eloszlása az összesre vonatkoztatva
Kvantitatív adatok ábrázolása Időfüggés ábrázolása (vízszintes tengelyen).
A trend követése a cél a kisebb tranziens mozgások figyelmen kívül hagyásával..
A periodikusan ismétlődő események követése szezonális változó.
Két adathalmaz összehasonlítása ugyanabban az időintervallumban.
10000 9000 8000 7000 6000 5000 4000 3000 2000 1000 0
800 600 500 400 300 200 100
# C as es
ee k
17
15 w
ee k
13 w
ee k
11 w
9
ee k
w
ee k
7 w
ee k
5 w
ee k
3 w
ee k
1
0
# D eaths
A diagnosztizált betegek 8-10 százaléka röviddel a diagnózis utan belehalt a komplikációkba
# deaths reported
700
w
0 0 130 552 738 414 198 90 56 50 71 137 178 194 290 310 149
ee k
36 531 4233 8682 7164 2229 600 164 57 722 1517 1828 1539 2416 3148 3465 1440
w
week 1 week 2 week 3 week 4 week 5 week 6 week 7 week 8 week 9 week 10 week 11 week 12 week 13 week 14 week 15 week 16 week 17
# cases diagnosed
1918 influenza epidemic Date # Cases # Deaths
A skála igenis számít!!!
Death rates from cancer (US, 1945-95)
Death rates f rom cancer (US, 1945-95)
Death rate (per thousand)
250 200 150 100
250 Death rate (per thousand)
A tengelyek skálázása befolyásolja az első benyomásokat az eredményekről.
200 150 100 50
50 0 1940
1950
1960
1970
1980
1990
0 1940
2000
1960
1980
2000
Years
Y ears
Death rates f rom cancer (US, 1945-95)
250
Death rates from cancer (US, 1945-95) 220 Death rate (per thousand)
Death rate (per thousand)
200
150
100
50
0 1940
1960
1980 Years
2000
Egy kép többet jelent ezer szónál
200 180 160
A skálázás viszont félrevezető lehet
140 120 1940
1960
1980 Years
2000
Gyakorisági eloszlások
Adatgyűjtés
Az adatainkat valamely mérési skálán elhelyezzük. A primer adatokon nem hajtunk végre adatfeldolgozást (matematikai műveletet vagy adatrendezést) Az adatgyűjtést követően adattranszformációt hajthatunk végre, vagy új változókat (szekunder adat) hozhatunk létre.
Rendezés
A rangsorolás, nagyság szerinti rendezés szükséges lehet: Adatok minimum-és, maximumértékét, A minta terjedelmét (range), Az adatok mediánját kell meghatározni.
Gyakorisági eloszlások
A növekvő sorba rendezett értéktartományt csoportokra oszthatjuk, és meghatározzuk az egyes csoportokba eső adatok számát. Ez a gyakorisági vagy eloszlási táblázat. Az adatok megoszlását mutatja a különböző értékhatárok között.
Osztályhatárok – osztályközhossz Esetszám Kumulált gyakoriság Relatív gyakoriság Kumulált relatív gyakoriság
Gyakorisági eloszlások 20 18
histogram
16 frequency
14 12 10
frequency polygon 69.5
75
8 6 4 2 0 10-19 20-29 30-39 40-49 50-59 60-69 70-79
79.5
Class intervals 10-19 20-29 30-39 40-49 50-59 60-69 70-79 Total
Cumulative Relative Frequency frequency frequency 5 5 0.088 19 24 0.333 10 34 0.175 13 47 0.228 4 51 0.070 4 55 0.070 2 57 0.035 57 1.000
Cumulative relative frequency 0.088 0.421 0.596 0.825 0.895 0.965 1.000
weights of malignant tumors (ounces)
Osztályok száma 5-20 közötti Keskeny osztályközöket össze lehet vonni Az osztályközök hossza azonos legyen A téglalapok magassága az adott osztályhoz tartozó gyakoriság,
Relatív gyakoriság: osztályok esetszámát összes esetszámmal Kumulált
gyakoriság:
Az egyes osztjuk az
Az adott osztályba és az az alá tartozó osztályok gyakoriságának az összege.
Hisztogramok értelmezése Egy kvamtitatív változó analizálása esetén az eloszlás mintázatát vizsgáljuk. Fontos paraméter az alakja közepe és az értékek szóródása.
Minden oszlopot összekötő vonallal ellátott hisztogram túl részletes
Egy simított görbével ellátott hisztogram reprezentálja az eloszlást
Jellegzetes gyakorisági hisztogramok
szimmetrikus
Az eloszlás szimmetrikus ha a jobb és a bal oldal szinte tükörképei egymásnak
Lehet jobbra illetve balra ferdült eloszlás is Jobbra ferdült
Komplex un több módusú
Néhány esetben (kis elemszámok esetén) az eloszlás lehet bonyolult is.
Kiugró értékek Ezek az eloszláson kívül helyezkednek el, befolyásolva az eloszlást jellemző értékeket
Alaska
Florida
Azonos adathalmaz
Nem eléggé összevont
Túlságosan összevont
Statisztikai redukció fogalma:
Az az eljárás, amelynek során az adatok jellemzőit egyetlen számértékbe összegezzük, tömörítjük.
Középérték fogalma:
Az adatokban mi a közös, a központi érték. Dimenziója a mért adatokéval azonos. A középértékkel szembeni elvárások Egyszerűen és egyértelműen lehessen meghatározni Közép helyet foglaljon el a nagyság szerint sorba rendezett adatok között Egyes sokaságok összehasonlítására alkalmas legyen
Középérték fogalma
Többféle középértékkel dolgozhatunk a gyakorlatban Az adatok típusa és a középérték tulajdonságai döntik el, hogy melyiket használjuk. Meghatározható
Számított középérték (átlagok)
Minden adatot figyelembe veszünk Érzékeny a kiugró értékekre
Az adatok sorba rendezésével helyzetük alapján
Nincs kapcsolatban mindegyik adattal Központi helyzeténél fogva jól jellemzi az adatokat
Számtani átlag: Az értékek összege, osztva az elemszámmal. A legjobban ismert, leggyakrabban használt paraméter az eloszlás elhelyezkedésének becslésére. Érdemes tudni, hogy erősen érzékeny a mintában esetleg előforduló kilógó (outlier) értékekre. Ilyenkor célszerűbb a medián használata. Ugyancsak félrevezető lehet az átlag erősen ferde eloszlás esetén. A magasságok összege 1598.3 osztva 25 nő = 63.9 inch
58.2 59.5 60.7 60.9 61.9 61.9 62.2 62.2 62.4 62.9 63.9 63.1 63.9
64.0 64.5 64.1 64.8 65.2 65.7 66.2 66.7 67.1 67.8 68.9 69.6
woman (i)
height (x)
woman (i)
height (x)
i=1
x1= 58.2
i = 14
x14= 64.0
i=2
x2= 59.5
i = 15
x15= 64.5
i=3
x3= 60.7
i = 16
x16= 64.1
i=4
x4= 60.9
i = 17
x17= 64.8
i=5
x5= 61.9
i = 18
x18= 65.2
i=6
x6= 61.9
i = 19
x19= 65.7
i=7
x7= 62.2
i = 20
x20= 66.2
i=8
x8= 62.2
i = 21
x21= 66.7
i=9
x9= 62.4
i = 22
x22= 67.1
i = 10
x10= 62.9
i = 23
x23= 67.8
i = 11
x11= 63.9
i = 24
x24= 68.9
i = 12
x12= 63.1
i = 25
x25= 69.6
i = 13
x13= 63.9
n=25
Σ=1598.3
Matematikai formula:
x1 + x2 + ... + xn x= n 1 n x = ∑ xi n i =1 1598.3 x= = 63.9 25
Tanuljuk meg használni a kalkulátorunk STAT funkcióját!!!!!.
A számszerű jellemzés értelmezhető jelentéssel bír. Height of 25 women in a class
x = 69.3
A hölgyek magasság szerinti eloszlása szimmetrikus, így az átlag jól reprezentálja az eloszlást.
Itt az eloszlás alakja nem szokványos Talán több mint egy növényfajta van?
x = 69 . 6
Height of Plants by Color
x = 63.9
5
x = 70.5
x = 78.3 red
Number of Plants
4
pink blue
3
2
1
0
58
60
62
64
66
68
70
72
74
76
78
80
82
84
Height in centimeters
Az eloszlás egyetlen számmal történő jellemzése nem célravezető.
Median A nagyság szerint növekvő sorrendbe rendezett adatok között a középső érték. A nála kisebb illetve a nála nagyobb értékek gyakorisága azonos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11
0.6 1.2 1.6 1.9 1.5 2.1 2.3 2.3 2.5 2.8 2.9 3.3 3.4 3.6 3.7 3.8 3.9 4.1 4.2 4.5 4.7 4.9 5.3 5.6
25 12
6.1
1. Nagyság szerint sorba rendezett eloszlás. n = elemszám ______________________________ 2.a. Ha az adatok száma páratlan, a középső érték lesz a median. n = 25 (n+1)/2 = 26/2 = 13 Median = 3.4 2.b. Ha az adatok száma páros, a két középső érték számtani átlaga lesz a median. .
n = 24 n/2 = 12 Median = (3.3+3.4) /2 = 3.35
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
1 2 3 4 5 6 7 8 9 10 11
1 2 3 4 5 6 7 8 9 10 11
0.6 1.2 1.6 1.9 1.5 2.1 2.3 2.3 2.5 2.8 2.9 3.3 3.4 3.6 3.7 3.8 3.9 4.1 4.2 4.5 4.7 4.9 5.3 5.6
Az átlag és a medián összehasonlítása Az átlag és a medián csak abban az esetben egyenlő ha az eloszlás szimmetrikus. A medián számtani közepet pótolja aszimmetrikus eloszlásoknál illetve extrém értékek előfordulása esetén. Átlag és medián szimmetrikus eloszlás esetén Mean Median
Átlag és medián aszimmetrikus eloszlás esetén
Balra ferdült
Mean Median
Mean Median
Jobbra ferdült
Kiugró értékek esetén
Percent of people dying
x = 3.4
x = 4.2 Nincs kiugró érték Kiugró értékkel
Az átlagot jelentősen
A medián értéke csak egy kicsit
befolyásolta a kiugró érték
tolódott jobbra (3.4-ről 3.6-ra).
(3.4-ről 4.2-re ).
Modus • A modus (sűrűsödési középpont, Mo) azt az értéket jelenti, amely a mintában a legnagyobb gyakorisággal fordul elő. • az eloszlás lehet akár több módusú is •Intervallum, arányskálán mért adatoknál használható, de kvalitatív adatok esetén is használható. 7 6 5 4 3 2 1 0
6 5 frequency
frequency
7
4 3 2 1
0
5 10 class intervals
15
0 0
5
10 class intervals
15
Interkvartilis terjedelem
Kvartilis: a nagyság szerint sorba rakott adatok tartományát 4 egyenlő elemszámra osztjuk. Az egyes intervallumokat elválasztó értékeket kvartiliseknek nevezzük. A felső és az alsó kvartilis különbsége az interkvartilis terjedelem
M = median = 3.4
IQT=Q3-Q1 Annak az intervallumnak a hossza, amelyben az adatok középső 50%-a helyezkedik el. Az outlier adatokra nem érzékeny, segítségükkel ezen értékek kiderítetők.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
1 2 3 4 5 6 7 1 2 3 4 5 1 2 3 4 5 6 7 1 2 3 4 5
0.6 1.2 1.6 1.9 1.5 2.1 2.3 2.3 2.5 2.8 2.9 3.3 3.4 3.6 3.7 3.8 3.9 4.1 4.2 4.5 4.7 4.9 5.3 5.6 6.1
Q1= első kvartilis = 2.2
Q3= harmadik kvartilis = 4.35
6 5 4 3 2 1 6 5 4 3 2 1 6 5 4 3 2 1 6 5 4 3 2 1
6.1 5.6 5.3 4.9 4.7 4.5 4.2 4.1 3.9 3.8 3.7 3.6 3.4 3.3 2.9 2.8 2.5 2.3 2.3 2.1 1.5 1.9 1.6 1.2 0.6
max = 6.1 BOXPLOT 7
Q3= 4.35
M = median = 3.4
6 Years until death
25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
5 4 3 2 1
Q1= 2.2
min = 0.6
0 Disease X
: min Q1 M Q3 max
frequency
Az adatok szóródásának mértéke 10 9 8 7 6 5 4 3 2 1 0
Terjedelem: Az adatok között előforduló legnagyobb és a legkisebb érték különbsége
small dispersion large dispersion
Variancia (szórásnégyzet): A mintaátlagtól való eltérések négyzetének az átlaga 0
5
10 class intervals
15
Szórás •A szórás (standard deviation, SD) az adatoknak az átlagtól vett átlagos eltérését jellemzi. A szórást s-el, a szórásnégyzetet (variancia) s2-el jelöljük. •Az s2 meghatározására két lehetőség van: •Tapasztalati szórásnégyzet •Korrigált elméleti szórásnégyzet
Tapasztalati szórásnégyzet
A mintaátlagtól való eltérések négyzetének az átlaga N
s *2 =
∑ (x i =1
i
− x)
2
N
Négyzetgyöke a tapasztalati szórás: s* A tapasztalati szórásnégyzetről valószínűsítjük, hogy várható értéke a populáció szórásnégyzetével (σ2) legyen azonos.
Variancia kiszámítása minta
S
2
populáció
( x − x) ∑ =
2
σ2 =
i
n −1
2 ( x − µ ) ∑ i
n
Minta: 1,4,7,8. átlag: (1+4+7+8)/4=5
(1 − 5) 2 + (4 − 5) 2 + (7 − 5) 2 + (8 − 5) 2 s = = 10 4 −1 2
Korrigált empirikus szórásnégyzet
SD =
.
2 ( x − x ) ∑ i
n −1