ADATREDUKCIÓ I. Középértékek
Adatredukció 1. Mi a középérték: azonos fajta számszerű adatok közös jellemzője. 2. Követelmények: a) Számított középérték: közbenső helyet foglaljanak el, azaz xmin középérték xmax b) Helyzeti középérték: tipikus értékek legyenek (gyakran forduljonak elő). c) Legyenek könnyen meghatározhatók. d) Legyenek egyértelműen definiálva.
Középértékek Számított középértékek Helyzeti középértékek Aritmetikai átlag: X
Harmonikus Módusz Medián Me Mo átlag: Xh
Geometriai átlag: X
Kvadratikus átlag: X
g
q
Számított középértékek _
xh • Matematikai összefüggés alapján számíthatók ki:
_
xh
• Egyszerű • Súlyozott
– Harmonikus átlag
– Mértani (Geometriai) átlag • Egyszerű • Súlyozott
xa
n
_
xq
1 i 1 xi
2 i
xq
x i 1
i
_
xa
i 1 n
x f i
i 1
n
f
i
i 1
i
fi i 1 xi n
i
i 1
fi
n
f i 1
n n
_
2
i 1
n
n n
_
f
i
xg x
x i 1
x
n
_
n
– Négyzetes (Kvadratikus) átlag • Egyszerű • Súlyozott
_
n
– Számtani (Aritmetikai) átlag
• Egyszerű • Súlyozott
n
i
xg
n
fi i 1
n
fi x i i 1
i
Aritmetikai átlag • Az a szám, amelyet az átlagolandó értékek helyébe téve azok összege nem változik:
Mértani átlag • Az a szám, amelyet az átlagolandó értékek helyébe téve azok szorzata nem változik:
Harmonikus átlag • Az a szám, amelyet az átlagolandó értékek helyébe téve azok reciprokainak összege nem változik:
Kvadratikus átlag • Az a szám, amelynek négyzetével helyettesítve az átlagolandó értékek négyzeteit, azok összege nem változik:
Helyzeti mutatók • Adatokat nagyságszerint rendezzük.
• Meghatározzuk a küszöb értéket és felosztjuk a tartományt a kívánt részre. • Kvantilisek: az összes előforduló érték j/k (j=1,2,…,k-1) része kisebb és 1-j/k része nagyobb. Pl. k=2: Medián (Me) k=3: tercilis k=4: Qvartilis (Q1, Q2=Me, Q3) k=5: kvintilis k=10: decilis k=100: percentilis
Outlier
Robusztus becslések (Truncated means)
Egyéb átlagok • Interquartile mean (IQM) vagy midmean: • Nem érzékeny az outlier értékekre:
• • • • • • • • • •
Vegyük a következő példát: 5, 8, 4, 38, 8, 6, 9, 7, 7, 3, 1, 6 Rendezzük az adatokat: 1, 3, 4, 5, 6, 6, 7, 7, 8, 8, 9, 38 Vegyük a quartilis határokat: elhagyjuk az alsó felső 3-3 számot: 1, 3, 4, 5, 6, 6, 7, 7, 8, 8, 9, 38 Határozzuk meg az így kapott számok átlagát: xIQM = (5 + 6 + 6 + 7 + 7 + 8) / 6 = 6.5 Határozzuk meg az eredeti vagyis a teljes adatok átlagát: (5 + 8 + 4 + 38 + 8 + 6 + 9 + 7 + 7 + 3 + 1 + 6) / 12 = 8.5 Látható az outlier erős befolyásoló hatása (outlier=38).
Szimmetrikus eloszlás esetén • • • •
IQM egyenlő az átlaggal: Legyen: 1, 2, 3, 4, 5 értékek Átlag=xmean = 3 Mivel szimmetrikus az eloszlás: xIQM = 3 szintén.
Ha az intervallum nem osztható 4-el • Megoldás: súlyozott átlaga a Q1 és Q3adatállománynak • Legyen: 1, 3, 5, 7, 9, 11, 13, 15, 17 • 9/4 = 2.25 adat mindegyik negyedben, és 4.5 adat az interquartilis range-ben. • Csonkítsuk a tört quartilis méretet, és távolítsuk el az így kapott adatszámot az 1. és 4. quartilisből (2.25 adat van mindegyik quartilisben, így a legalacsonyabb 2 és legmagasabb 2 adat lesz eltávolítva).
Ha az intervallum nem osztható 4-el (folyt.) • 1, 3, (5), 7, 9, 11, (13), 15, 17 • Van 3 teljes adatunk és 2 tört adatunk az interquartilis range-ben. • Mivel 4.5 megfigyelésünk van az interquartilis range-ben, a súlyok: 3×1 + 2×0.75 = 4.5 megfigyelés. • xIQM = {(7 + 9 + 11) + 0.75 × (5 + 13)} / 4.5 = 9 • Átlag: xmean = 9. • IQM esetén a súlyszámok: 0, 0.25, 0.50, 0.75.
Trimean vagy Tukey's trimean • Kombinálja a medián és a midhinge előnyeit tekintettel az extrém értékekre:
Összefoglalás - Középértékek Az egyes adatfajtáknál milyen középértékeket alkalmazunk?
Átlag
Kvantitatív
Medián
Ordinális
Módusz
Nominális
ADATREDUKCIÓ II. Szóródás és mérése
A szóródás terjedelme • A terjedelem az előforduló elemek között a legnagyobb és legkisebb érték különbsége. (T=)R=xmax-xmin • Interkvartilis range: IQR=Q3-Q1 • A mutatószámok kifejezik, hogy mekkora értékközben ingadoznak az ismérvértékek. • Gyakorlatban kevéssé használatos, mert csupán a két szélső értékre támaszkodik.
Boxplot és interquartilis range (N(0,σ2) populáció)
Box-and-whisker plot négy + nagyon távoli extrém értékkel: definiálva Q3 + 1.5(IQR) and Q3 + 3(IQR) alapján
• Midhinge range: IQR=(Q3-Q1)/2 • John Tukey: midhinge-t egyszerűbb számítani. • Mid-range vagy mid-extreme:
Mérőszámok • Terjedelem : T=R= xmax xmin Q Q • Interkvartilis félterjedelem:IQR= 3 1
• Átlagos abszolút eltérés • Szórás – Szórásnégyzet (Variancia) • Relatív szórás (Variációs koefficiens)
n
d i 1
2 i
V
_
x
*100
_
d i xi x
n n
n
d i 1
2 i
fi
i 1
i 1
i
i
n
_
d i xi x
n
d i 1
i
fi
n
f i 1
n
f
d
i
Átlag szórása (Standard error, SEM) • A mintaválasztás jóságát mutatja: a 0 közeli érték a jó érték, mert ekkor helyes a mintaválasztás (dimenziós érték!):
s sx N
Relatív szórás (variációs együttható, V)
• Az adatok szórását osztjuk az átlaggal, majd szorozzuk 100%-al • Kicsi: a szórás, ha V<15%, • Közepes: ha 15%
35%
L-estimator vagy L-statistic • Egyszerű, interpretálható, gyakran a robusztus statisztikákban alkalmazzuk. • Az extrém értékeknek ellenáll.
Egyszerű L-estimators vizualizációja box plot digrammal: range, midrange, interquartile range, midhinge, trimean
Hiányzó értékek kezelése (Missing values)
Hiányzóérték • 1, 2, 3, 4, 5, 6
1 2 3 4 5 6 21 x 3.5 6 6
• 1,2,3,4,5,6
1 3 4 5 13 x 3.25 4 4
1,0,3,4,5,0
1 0 3 4 5 0 13 x 2.2 6 6
• Hiányzó érték: nem regisztrált adat. • Hatása: erőteljesen befolyásolhatják az elemzés eredményeit. - Ha nem vesszük figyelembe a hiányzó adatokat vagy feltételezzük, hogy a hiányzó értékek kizárása elegendő, akkor érvénytelen és megbízhatatlan eredményeket kaphatunk. - Az adatelőkészítés fázisban kell gondoskodni arról, hogy az adatelemzés során olyan adatokat használjunk, amelyek figyelembe veszik a hiányzó értékeket. • Többváltozós módszereknél esetszám kiesést jelent.
Hiányzó értékek jelölése • • • •
0 kód esetén a teendő kód használata: -99999 Szoftver felé való közlés Hiányzó értékek kezelése: - üresen hagyjuk, - átlagot tesszük be: a helyettesítés rombolja a változók eloszlásfüggvényét, konfidencia-intervallumát, megnöveli az eloszlások csúcsosságát, a változók közötti lineáris kapcsolatokat is megváltoztatja, a korrelációs együttható közelebb kerül a 0-hoz.
• Az egyszerű regressziós eljárásban két vagy több változó közötti predikciós modell alapján egészítünk ki egy hiányzó adatot. • Ez az eljárás az ellenkező irányba torzítja a változók közötti korrelációt: növeli annak értékét.
• Az 1980-as évektől kezdődően elterjedtek a maximum likelihood alapú EM (Expectation-Maximization) algoritmuson alapuló helyettesítési technikák. • Majd az 1990-es évektől az ún. „multiple imputation (MI)” Bayes-i alapú procedúrák. • Mivel a kiegészített adatokkal végzett statisztikai analízisek révén megbízható és eredményes következtetéseket kell levonnunk a populációra, illetve az adott mintára nézve, meg kell őriznünk a megfigyelt változók eloszlását és asszociációit.
• A hiányzó adataink becslésénél kismértékű hibára számítunk, miközben kezelni kívánjuk az adatok bizonytalanságát. A hiányzó adatokra vonatkozó becslésekkel kiegészített változók konfidencia intervalluma 95%-ban kell, hogy fedje a „valós” értékeket. • Ha a lefedettség pontos, akkor az I. fajú hiba előfordulási valószínűsége is helyes: 5%. • Emellett a konfidencia intervallumokat kellően szűknek várjuk, mert ezzel a II. fajú hibák lehetőségei csökkennek.
• Az MCAR (missing completely at random) esetében a hiányok valószínűsége egyáltalán nem függ össze az adatainkkal, ilyenkor a nemválaszolók olyanok, mint egy random alcsoport. Ritka esetben igaz. • A MAR (missing at random) modelleknél a hiányok valószínűsége csak a megfigyelt egyéb adatoktól függ, de nem a helyettesítendő hiányzótól. Ez a standard feltételezés. • Kevésbé megoldható probléma az MNAR (missing not at random) helyzet, amikor a hiányzó adat előfordulása pont a hiányzó adat minőségével vagy jelentésével függ össze. •
A maximum-likelihood módszerek elvárása a MAR helyzet, míg a multiple imputation technikák többnyire már az MNAR problémákat is jól kezelik.
MI (multiple imputation) • Az MI célja, hogy a helyettesítésekkel együtt • megtartsuk a változók eloszlását és a változók közötti asszociációkat. • Szimuláción és legtöbbször Bayes-i alapokon álló technika, ahol a megfigyelt adatokból m>1 verzióban modelleznek lehetséges adatokat a hiányzók helyére, majd a végén egy algoritmus szerint kombinálják az eredményeket (a becsléseket és a szórásokat).
MI • Általános szabályként olyan változók esetében használhatjuk az imputálást, ahol változónként maximum az adatok 30– 40%-a hiányzik, de a teljes adatbázisban nincs több hiányzó, mint a teljes mátrix 10–15%-a. • Ezek az arányok a szakirodalom szerint egyáltalán nem adnak okot aggodalomra a helyettesítés metódusát illetően.
• Az SPSS Missing Values moduljában hat diagnosztikai riport bármelyikével több különböző szempontból vizsgálhatjuk adatainkat és rátalálhatunk a hiányzó adat mintákra. • Ezután értékelhetjük a kapott statisztikákat és megbecsülhetjük a hiányzó értékeket regressziós vagy az elvárt eredményt maximalizáló (Expectation Maximalization, EM) algoritmusok révén. Az SPSS Missing Values segítségével: • Megállapíthatjuk a hiányzó értékekből adódó probléma súlyosságát. • A hiányzó értékeket helyettesíthetjük becslésekkel, például regresszió vagy EM algoritmus segítségével.
• Legtöbb esetben MCMC (Markov chain Monte Carlo) modellt fog alkalmazni a program, ahol az egyes változók értékeinél a többi modellváltozó predikcióit fogja felhasználni bizonyos iterációs szám mellett. • Összefoglalás: azokban a kutatásokban, amelyekben korrelációalapú számításokat végeznek a kutatók, biztonsággal alkalmazható az adat-imputálás. • Kutatásokban azonban törekedni kell a minél teljesebb adatbázis létrehozására, eredményeinket ekkor fogadhatjuk el minden fajta szkepszis nélkül.
Aszimmetria mérőszámai
Az aszimmetria mérőszámai Az eloszlások következő típusaival foglalkozunk: -egymóduszú eloszlás • szimmetrikus, • aszimmetrikus (vagy ferde); -többmóduszú eloszlás.
Az eloszlás alakjának jellemzése • Ferdeség (skewness, normális eloszlás=0 körüli érték) • Csúcsosság (kurtosis, normális eloszlás=0 körüli érték)
Ferdeség mérése _ x x n i Ferdeség • =FERDESÉG() – SKEW() (n 1)(n 2) s – A ferdeség az eloszlás középérték körüli
aszimmetriájának mértékét jelzi. A pozitív ferdeség a pozitív értékek irányába nyúló aszimmetrikus eloszlást jelez, míg a negatív ferdeség a negatív értékek irányában torzított.
2 3 ( n 1 ) • =CSÚCSOSSÁG() – KURT() Csúcsosság (n 1)(n 2) – Egy adathalmaz csúcsosságát számítja ki. A
függvény a normális eloszláshoz viszonyítva egy eloszlás csúcsosságát vagy laposságát adja meg. A pozitív értékek viszonylag csúcsos, a negatív értékek viszonylag lapos eloszlást jelentenek.
3
POSITIVELY SKEWED
NEGATIVELY SKEWED
BI-MODAL
35
50
30
40
25
30
20 20
15 10
10
5
0
0 -5
-10
1
3
5
7
9
11
13
15
17
1
3
5
7
9
11
19
Asszimmetria mérése 30 25 20 15 10 30
5
25
0
20
1
15 10 5 0 -5
1
3
5
7
9
11
13
15
17
19
3
5
7
9
11
13
15
17
19
13
15
17
19
Az aszimmetria mérőszámai • Többmóduszú gyakorisági sorok általában heterogén sokaságokból származtathatók. A fősokaságot a heterogenitást előidéző ismérv szerint csoportosítva egy egymóduszú gyakorisági sorokhoz jutunk, ezért ezeket összetett gyakorisági soroknak is nevezzük. • Az egymóduszú gyakorisági sorok poligonjának egy helyi maximuma (csúcsa) van. A helyzetmutatók elhelyezkedésétől függően az eloszlás szimmetrikus és aszimmetrikus lehet.
Asszimetria mérőszámai • Az aszimmetria leggyakrabban használt mérőszámai a Pearson-féle mutatószám és az F mutató. A két mutatószám eltérő jellemzőkből kiindulva méri az aszimmetria mértékét és irányát.
Pearson-féle mutatószáma • Az aszimmetria Pearson-féle mutatószáma (jele: A) a számtani átlag és a módusz egyes eloszlástípusok esetén jellemző nagyságrendi viszonyán alapul. • A mérőszám (önmagában a számláló) előjele az aszimmetria irányát mutatja. Bal oldali, jobbra elnyúló aszimmetria esetén A 0, jobb oldali, balra elnyúló aszimmetria esetén A 0. Szimmetrikus eloszlás esetén A = 0. A mérőszám abszolút értékének nincs határozott felső korlátja, azonban már 1-nél nagyobb abszolút érték a gyakorlatban ritkán fordul elő és meglehetősen erős aszimmetriára utal. A
x Mo
F mutató • Az aszimmetria másik mérőszáma, az F mutató (jele: F) az alsó és felső kvartilis mediántól való eltérésének egymáshoz viszonyított nagyságán alapul. Bal oldali, jobbra elnyúló aszimmetria esetén a medián az alsó (Q1), míg jobb oldali aszimmetria esetén a felső (Q3) kvartilishez esik közelebb. • E mutatószám ugyanolyan feltételek mellett ad nulla, pozitív és negatív eredményt, mint az A mutató. Az F mutató lényegesen kisebb értékkel jelzi a már nagyfokúnak tekinthető aszimmetriát, mint az A.
(Q 3 Me) ( Me Q 1 ) F (Q 3 Me) ( Me Q 1 )
Eloszlások Egymóduszú Szimmetrikus
Asszimetrikus
Mérsékelten asszimetrikus Balra ferdült
Több móduszú
Jobbra ferdült
U alakú Erősen asszimetrikus
J alakú
Fordított J alakú
M alakú
Konfidenciaintervallum (Confidence interval)
A konfidenciaintervallum fogalma (Bizonyossági/megbízhatósági intervallum) • Olyan, a mintaelemekből számolt intervallum, amely nagy valószínűséggel tartalmazza a populáció-paraméter valódi (ismeretlen) értékét. • Valószínűségi intervallum, az induktív statisztika eszköze. • Ha mintából becsülünk, sohasem tudjuk a pontos értéket. • Pl. 95%-os bizonyossági intervallum az átlagra: olyan, a mintaelemekből számolt intervallum, ami 95% valószínűséggel tartalmazza a populáció valódi átlagát. • Leggyakrabban használt megbízhatósági szint 95% (0.95).
Az átlagra vonatkozó 95%-os bizonyossági intervallum szemléltetése az adott kísérlet képzeletbeli ismétléseivel • Ha a kísérletet képzeletben 100-szor megismételnénk, a 100 kapott 95%-os konfidencia intervallum közül várhatóan 95 fogja tartalmazni a populáció átlagát, és 5 nem.
http://www.kuleuven.ac.be/ucs/java/index.htm
56
Szignifikancia vizsgálatok és a konfidenciaintervallum kapcsolata (H0: μ1= μ2, azaz μ1- μ2 =0, Ha: μ1 μ2)
Szignifikáns, p<0.05 Szignifikáns. p<0.05 Nem szignifikáns, p>0.05
0
Megjegyzés. Ha relatív kockázatot vagy esélyhányados vizsgálunk, akkor a konfidenciaintervallumban az 1-et keressük, hogy az értéket tartalmazza-e.