1
1.
A KORRELÁCIÓS EGYÜTTHATÓ
A korrelációs együttható A tapasztalati korrelációs együttható képlete: n X
R(X, Y ) = v u
(Xi − X)(Yi − Y )
i=1
.
n n X uX t (Xi − X)2 · (Yi − Y )2 i=1
i=1
Az együttható tulajdonságai: • LINEÁRIS kapcsolat szorossága. • Értéke −1 és 1 közé esik. • Ha |R| > 0.8 akkor jó közelítéssel lineáris kapcsolat van. • Ha |R| < 0.8 akkor nincs lineáris kapcsolat de más kapcsolat lehet. 1.1.
Feladatok
Els® lépésként töltsük le a tanszék honlapján megtalálható excel le-t (Korreláció, rangkorreláció, Kendall-féle konkordancia.). Ez a táblázat 15 évre visszamen®leg adatokat tartalmaz, amit a KSH (Központi Statisztikai Hivatal) honlapján megtalálhatóak. Az els® sorban az évek vannak feltüntetve, utána pedig az évekhez tartozó különböz® adatok pl: Elítéltek száma, Vasúti balesetek száma, Dohányfogyasztás, Tüd®asztmások száma stb. Ezek közül bármelyik két adatsort meg tudunk vizsgálni korreláció szempontjából. Vizsgáljuk meg el®ször, hogy a tüd®betegek száma (X) és a dohányfogyasztás (Z), illetve a sz¶rések száma (Y ) között milyen kapcsolat van. Megoldás: • Hogy áttekinthet®bb legyen a táblázatunk másoljuk át a megfelel® oszlopokat a második munkalapra. Ehhez jelöljük ki az els® oszlopot (A1-t®l A17-ig), majd Jobb clikk =⇒ Másolás vagy
CRTL+C billenty¶kombináció. Ezután kattintsunk a második munkalapra, jelöljük ki az A1-es cellát, majd Jobb gomb =⇒ Beillesztés vagy CRTL+V. Ehhez hasonló módon az M oszlopot másoljuk a B oszlopba, az L-t a C-be és az N-t pedig a D-be.
• Mivel igen nehéz lenne egyb®l kiszámolni a korrelációs együtthatókat, bontsuk a feladatot
részlépésekre:
Els® lépés az egyes átlagok kiszámolása. (Ezek mindenhova kellenek) ∗ A19:= "Átlag" ∗ B19:= "=ÁTLAG(B2:B17)" ∗ A B19-et húzzuk ki D19-ig. Így megkaptuk az egyes átlagértékeket. Következ® lépés az (Xi − X), (Yi − Y ) és (Zi − Z) értékek kiszámítása. ∗ F1:= "Xi − X " (Itt most X az átlagot jelenti) Alsó indexeléshez jelöljük ki a karaktert, majd lépjünk be a Formátum → Cellák → Bet¶típús menüpontba és pipáljuk ki az Alsó index dobozát. 1
1.1
Feladatok
1
A KORRELÁCIÓS EGYÜTTHATÓ
∗ F2:= "=B2-B$19" (B19 az átlag, ezt kell minden elemb®l kivonni, tehát ezt a sort
xálni kell a dollár jellel)
∗ F2-®t huzzuk le F17-ig. ∗ G1:= "Yi − Y ", H1:= "Zi − Z " ∗ Húzzuk át F2-®t H2-ig. Mivel az el®z®ekben csak a 19-dik sort xáltuk, ezért az egyes
oszlophoz a megfelel® átlagértékek fognak tartozni. ∗ Végül húzzuk le a G2-®t G17-ig, a H2-®t pedig H17-ig. Most számoljuk ki (Xi − X)2 , (Yi − Y )2 és (Zi − Z)2 értékeket. ∗ I1:= "(Xi − X)2 ", J1:= "(Yi − Y )2 ", K1:= "(Zi − Z)2 " ∗ I2:= "=F2*F2" ∗ I2-®t húzzuk el két irányban I17-ig, majd az egészet K17-ig. ∗ Számoljuk ki rögtön a szummákat az I19-t®l a K19-ig terjed® cellákba. (Remélem nem fog nehézséget okozni ha nem írom ezt le részletesen:)) Már csak a (Xi − X)(Yi − Y ) és az (Xi − X)(Zi − Z) közbens® értéket kell kiszámolni. ∗ L1:= "(Xi − X)(Yi − Y )", M1:= "(Xi − X)(Zi − Z)" ∗ L2:= "=$F2*G2" ∗ L2-®t húzzuk el két irányban L17-ig, majd az egészet M17-ig. (Próbáljon meg mindenki maga rájönni, hogy az el®z® képletben mért ott van a dollár jel, ahol van) ∗ Számoljuk ki itt is a szummákat az L19-t®l a M19-ig terjed® cellákba. • Most már egyszer¶en ki tudjuk számolni a két korrelációs együtthatót.
A21:= "Korrelációs együttható (Töd®asztma-Sz¶rések száma)" A22:= "Korrelációs együttható (Töd®asztma-Dohány)" F22:= "=L19/GYÖK(I19*J19)" F21:= "=M19/GYÖK(I19*K19)" • Számoljuk ki a korrelációs együtthetó értékeit az Excel beépített függvényével is.
G22:= "=KORREL(B2:B17;C2:C17)" G21:= "=KORREL(B2:B17;D2:D17)" A korrelációs együttható értékét Excel-ben a KORREL függvénnyel tudjuk kiszámolni. Itt két ugyanolyan hosszú adat tartományt kell megadni, amik között az együttható értékét kiszámolja. • Legvégül két grakont. Egyikben a Tüd®betegek számát ábrázoljuk a Tüd®sz¶rések számának
függvényében, a másikban pedig a Dohányfogyasztást ábrázoljuk a Tüd®betegek számának függvényéban. Függvényrajzoláskor a szokásos PontXY típust használjuk!!
• Az eredményeket nem árulom el. Mindenki próbáljon meg választ adni az eredményeket -
gyelembe véve arra a kérdésre, hogy mi a célszer¶bb: leszokni a dohányzásról, vagy eljárni tüd®sz¶résre.
Most mindenki saját maga próbáljon meg korrelációs együtthatókat kiszámítani valamilyen szimpatikus adatkupacok között. Ha megy, akkor természetesen kevesebb részeredmények kiszámításával is meg lehet csinálni a feladatot.
2
2
2.
RANGKORRELÁCIÓ (EGYETÉRTÉS-VIZSGÁLAT)
Rangkorreláció (egyetértés-vizsgálat) A rangkorrelációs együttható képlete: 6
R(X, Y ) = 1 −
n X
(Xi − Yi )2
i=1
N (N 2 − 1)
.
A tulajdonságai: • Minden érték csak egyszer szerepelhet. Tehát nem fordulhat el® döntetlen kimenetel. • A valószín¶ségi változó csak egész számot(rangot) vehet fel, és értéke 1-t®l, N -ig terjedhet. Ahol N a rangsorolandó személyek vagy tárgyak száma. • A rangkorrelációs együttható értéke is −1 és 1 közé eshet. Ha értéke 1 akkor at mondjuk, hogy a kapcsolat konkordáns (Mindkét versenyszámban ugyanaz a sorrend). Ha −1 akkor pedig
diszkordáns (A két versenyszámban a versenyz®k ellentétes eredményeket érnek el).
• Mindegy, hogy melyik korrelációs együtthatóval számolunk, számszerileg ugyanazt fogjuk kapni.
Csak a Spearman-féle korrelációs együtthatót sokkal egyszer¶bb kiszámolni.
2.1.
Feladatok
2.1.1. Korreláció és rangkorreláció Legyen egy hét f®s sícsapat tagjai: Eszter, Brigitta, Rita, Karin, Bence, István és Pál. A versenyz®k lesiklásban és m¶lesiklásban mért helyezéseik legyenek a következ®ek: Versenyz®
Eszter
Brigitta
Rita
Bence
István
Karin
Pál
Lesiklás (X)
2
1
3
4
7
5
6
M¶lesiklás (Y)
2
3
1
5
7
4
6
Vizsgáljuk meg, hogy a két versenyszám helyezései között van e valami kapcsolat. A feladatot oldjuk meg a "hagyományos" módszerrel, és rangkorrelációval is.
3
2.1
Feladatok
2
RANGKORRELÁCIÓ (EGYETÉRTÉS-VIZSGÁLAT)
Megoldás: Mindenki csináljon üres munkalapra egy excel táblázatot az adatokról. Célszer¶ az adatokat oszlopokban írni nem pedig sorokban. El®ször a korrelációs együtthatót fogjuk kiszámolni melynek lépései: • Az el®z® feladathoz hasonlóan itt is az átlagszámítással indulunk. A várakozásnak megfelel®en
az átlag mindkét esetben ugyanaz.
• Ezután egy külön oszlopokban számoljuk ki az (Xi − X)(Yi − Y ), (Xi − X)2 és az (Yi − Y )2
értékeit.
• Összegezzük az oszlopokat. • Végül számoljuk ki a korrelációs együtthatót.
Most számoljuk ki a rangkorrelációs együtthatót: • Ebben az esetben semmi szükség az átlagok kiszámítására, viszont szükségünk lesz a résztvev®k
számára. Ezt a DARAB függvényel meg tudjuk számolni. Csináljuk meg ezzel az eljárással annak ellenére, hogy fejb®l tudjuk mennyien vannak.
• Szükség van viszont a rangkülönbségek négyzetére, vagyis a (Xi − Yi )2 -re. • Összegezzük az oszlopot. • Végül a tanult képlettel számoljuk ki a rangkorrelációs együtthatót.
Az eredményekb®l látszik, hogy mindegy melyik képletet alkalmazzuk.
2.1.2. Min®ségi osztály Egy piacon 8 keresked®nél min®ségvizsgálatot folytatunk. Az árult almákat és körtéket hat min®ségi osztályba soroljuk. Ezek: A, B, C, D, E, F, G, H . A boltok és a mín®ségi osztályok száma egyenl®re direkt egyezik meg. A vizsgálat eredménye legyen a következ®: Keresked® sorszáma
K1
K2
K3
K4
K5
K6
K7
K8
Alma (X)
B
A
F
G
H
E
C
D
Körte (Y)
A
B
H
G
F
D
C
E
Csináljuk az adatokról táblázatot egy új munkalapra. Az adatokat most is oszlopokba írjuk be. A f® probléma a rangkorreláció számításánál, hogy a rangsorhoz nem számokat hanem bet¶ket használtunk. Ezért ebben a formában nem tudjuk a feladatot megoldani. A problémát úgy tudjuk áthidalni, hogy minden bet¶höz egy egész számot rendelünk úgy, hogy a legjobb termék (A osztály) legyen 1-es sorszámú. Vagyis: A =⇒ 1,
B =⇒ 2,
C =⇒ 3,
D =⇒ 4,
E =⇒ 5,
4
F =⇒ 6,
G =⇒ 7,
H =⇒ 8.
3
KENDALL KONKORDANCIA
A táblázatunkban így már számok fognak szerepelni: Keresked® sorszáma
K1
K2
K3
K4
K5
K6
K7
K8
Alma (X)
2
1
6
7
8
5
3
4
Körte (Y)
1
2
8
7
6
4
3
5
Egészítsük ki a táblázatunkat ezzel a két oszloppal, és számoljuk ki a rangkorrelációs együtthatót.
3.
Kendall konkordancia
12
W= Ri =
m X
n X ¯ 2 (Ri − R) i=1
m2 (n3 − n)
rij ,
j=1
,
¯ = 1 m(n + 1). R 2
ahol: • n a versenyz®k száma. m a bírálók száma. • Figyeljük meg, hogy az Ri -k az egyes versenyz®k összrangszáma. • W értéke 0 és 1 közé esik. • Ha W = 1, akkor a bírálók döntése összhangban van. Ha pedig W = 0, akkor a bírálók "össze-
vissza" pontoztak.
3.1.
Feladatok
3.1.1. Síz®k újra Legyenek egy hat f®s sícsapat tagjai: Eszter, Brigitta, Karin, Bence, István és Pál. A versenyz®k lesiklásban és m¶lesiklásban mért helyezéseik legyenek a következ®ek: Versenyz®
Eszter
Brigitta
Bence
István
Karin
Pál
Lesiklás
2
1
3
4
5
6
M¶lesiklás
2
3
1
5
4
6
Diszkoszvetés
5
6
4
1
3
2
Vizsgáljuk meg, hogy a versenyszámok helyezései között van e kapcsolat, azaz mennyire igaz, hogy aki az egyik sportágban jó az a másikban is jó. Megoldás:
5
3.1
Feladatok
3
KENDALL KONKORDANCIA
• Számoljuk ki el®ször a versenyz®k n és a "bírók" m számát. Itt most a bírók természetesen a
versenyszámok. A DARAB függvény használatát lehet gyakorolni!
¯. • Ezután számoljuk ki az átlagos összrangszámot R • Majd minden versenyz®nek az összrangszámát Ri egy külön oszlopba. • A mellette lév® oszlopba az átlagos összrangszám és az egyéni összrangszám négyzetes eltéréseit. • Végül számoljuk ki a Kendall konkordanciát.
6