Mérési adatok illesztése, korreláció, regresszió
Korreláció, regresszió Két változó mennyiség közötti kapcsolatot vizsgálunk. Kérdés: •van-e kapcsolat két, ugyanabban az egyénben, állatban, kísérleti
mintában, stb. mért különböző változó között? Ha csak arra vagyunk kíváncsiak, hogy ilyen kapcsolat fennáll-e, akkor korrelációt számítunk, ha arra is, hogy ha fennáll ilyen kapcsolat, akkor az egyik változó értékeiből hogyan lehet előre jelezni a másik változó értékeit, akkor regressziós, általában lineáris regressziós számítást végzünk. A kapcsolat szorosságát mérőszámmal jellemezzük: legelterjedtebb a korrelációs együttható, vagy Pearson-féle korrelációs együttható. Az együtthatót r-rel jelöljük, és a mérések közötti lineáris kapcsolat szorosságát méri.
Az alábbi táblázat alapján ábrázoljuk a matematika és a nyelvek iránti érdeklődést egy szóródási diagramon!
A pontok közelítőleg egy egyenes mentén helyezkednek el. Ha ilyen a pontok elhelyezkedése, akkor azt mondjuk, hogy a változók között jó a korreláció.
A korrelációs együttható ( r) számítása Jelölje a két változóra vett mintát xi, yi Ekkor a korrelációs koefficiens a következő képlet szerint számítható ki:
A korrelációs együttható tulajdonságai • r mindig -1 és 1 között van. •Ha a pontok nem fekszenek egy egyenes mentén, akkor azt mondjuk, hogy nincs korreláció közöttük (r=0),vagy gyenge korreláció van közöttük ( r közel van 0-hoz). •Ha a pontok egy egyenes mentén fekszenek, akkor r közel van +1-hez vagy -1-hez, ekkor azt mondjuk, hogy a két változó között szoros a korreláció.
A korrelációs koefficiens értéke független a mértékegységektől, amelyekben a két változó meg van adva pl. testmagasság és testsúly közötti korreláció, mindegy, hogy milyen mértékegységben (kiló, font, cm, inch) vannak ezek megadva A korrelációs koefficiens értékét az outlier (kilógó) értékek igen erősen befolyásolják. Ezt minden esetben végig kell gondolni, az adatokat transzformálni, esetleg, ha ez korrekt korrigálni is lehet. A kilógó érték lehet egy szabálytalan, torzult eloszlás eredménye, ilyenkor segíthet a transzformáció, vagy lehet mérési hiba, ilyenkor lehet óvatosan korrigálni. Vigyázat! a 0,95-nél nagyobb „r” érték biológiai rendszerekben gyanús, elsősorban arra utal, hogy az egyik mért érték a másikból következik, ill. ez által determinált. Ezt az erősnek mért korrelációk esetén mindig meg kell gondolni.
A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei I.
A vizsgált egyének (állatok, minták, stb.) egy nagyobb populációból véletlenszerűen lettek kiválasztva. Minden vizsgált egyénnél megmérték mindkét (x és y) változót. A megfigyelések egymástól függetlenek. A vizsgált egyének kiválasztása egymást nem befolyásolja (nincs rokonsági kapcsolat). Nem tekinthetők független megfigyeléseknek, ha ugyanazt a vizsgálatot ugyanazokban az egyénekben megismételjük és ezeket különálló mintáknak tekintjük (a kettőt összevonjuk). Az x és y értékeknek is függetleneknek kell lenni egymástól.
A lineáris (Pearson) korrelációs koefficiens kiszámíthatóságának feltételei II.
Ha az x változó szisztematikusan változik, pl. idő, koncentráció vagy dózis) akkor nem korrelációt, hanem lineáris regressziót kell számolni, bár ugyanazt az r és P értéket kapjuk, de a regresszióból több következtetés vonható le. Mind az x, mind az y mintáknak normál eloszlást mutató populációból kell származniuk. Ha ez nem áll fenn, akkor nem paraméteres eljárást (Spearman korrelációs koefficiens) kell végeznünk. Az x és az y végig egy irányban kell változzon. Pl. az r - nek semmi értelme akkor, ha az x növekedésével egy darabig nő az y, de a további növelés után csökkenni kezd. Sohasem szabad két populációból származó mintát kombinálni, mert ez ál-szignifikáns korrelációt fog mutatni, noha sem az egyik, sem a másik mintában külön-külön nincs kapcsolat a két változó között.
Lineáris regresszió Ha két változó kapcsolatának vizsgálatakor magas korrelációt kapunk, megpróbálhatjuk az összefüggést egy ideális egyenessel jellemezni - egy olyan egyenessel, amely a legjobban reprezentálja a lineáris kapcsolatot. Ekkor felírhatjuk az egyenes egyenletét, és ezt használhatjuk pl. arra, hogy „megjósoljuk” egy adott x értékhez az „ideális” y-t. A regresszió úgy mutatja meg két változó kapcsolatát, hogy egyben az egyik változó (függő változó) a másik változótól (független változó) való függésének mértékét is kifejezi. A lineáris regressziós számítás lényege az, hogy egy olyan vonalat húzunk, amely a mérési pontoktól a lehető legkisebb távolságban van, ezeket a legjobban megközelíti (best fit regression line). Matematikailag ez azt jelenti, hogy minden más vonal esetében a mérési pontok függőleges távolsága négyzeteinek összege nagyobb volna. -> Legkisebb négyzetek módszere
Mi történik, ha az x és az y közötti összefüggés nem lineáris?
1. Meg kell próbálni úgy transzformálni az értékeket, hogy lineárissá váljon az összefüggés. 2. Ha ez nem lehetséges, a nem-lineáris regresszióval kell dolgozni. A nem-lineáris regresszió lényege egy egyenlet illesztése az adatokhoz és annak a vizsgálata, hogy az adatok illeszkednek-e az egyenlet által meghatározott görbéhez (lineáris regesszió: ugyanez egyenessel). A számítógépes programokba számos egyenlet be van építve, de lehetőség van saját egyenlet készítésére is.
Az előző táblázat alapján készített, a matematika és a nyelvek iránti érdeklődés szóródási diagramján illesszünk egyenest a pontokhoz!
Matematika iránti érdeklődés
Első lehetőség : trendvonal felvétele •Jobb klikk az adatpontokra •„Trendvonal felvétele” a menüből •„Egyebek” fülön Egyenlet és R-négyzet látszik kiválasztása 600
y = 1.0163x + 15.51
550
R2 = 0.9978
500 450 400 350 350
400
450
500
Nyelv iránti érdeklődés
550
Másik lehetőség : LIN.ILL függvény használata Bal klikk egy üres cellára A menüből „Beszúrás->Függvény->LIN.ILL (statisztikai) Argumentumok megadása-> „Kész” A cella és a mellette lévő cella együttes kijelölése F2 Crtl+Shift+Enter : az egyenes meredeksége és y-tengely metszéspontja
1., Határozzuk meg a két folyó vízállásának átlagát! Időpont (óra) Tisza (m) Duna (m) 1 5,5 7 2 6,4 7,4 3 6,7 7 4 7 8,6 5 6,3 8,6 6 7,8 9 7 7,8 9,4 8 8,5 9 9 8,5 10,6 10 9,3 9 11 8,5 11 12 10 10,6
2., Ábrázoljuk a vízállást grafikonon! 3., Illesszünk egyenest a két függvényre! 4., Számoljuk ki, hogy mennyi lenne a vízállás értéke 24, 36 és 48 óra elteltével!
24
13,85
14,91
36
18,08
19,00
48
22,30
23,10
Perctérfogat (liter/min)
100
3,05
200
4,98
300
6,33
400
7,48
500 600
Perctérfogtat (l/min)
Teljesítmény (kg m/min)
15
8,67
10
9,98
1., Ábrázoljuk a perctérfogatot a teljesítményfüggvényében! 2., Illesszünk rá egyenest!
3., Perctérfogat
Becsüljük meg a perctérfogatot 800 és 1100 kg y = m/min 1.3391x + 2.0613 teljesítmény mellett! 2 R = 0.9915
5
Együtthatókkal vigyázni! 0 100 nem 2001, 2,300 Az x tengely beosztása 3, 400 500 600 Teljesítmény (kg m/min) stb.!!! m Ilyenkor LIN.ILL fgv-nyel kell meghatározni a paramétereket! 0.01339
b 2.0613
Perctérfogtat (l/min)
Az egyenes egyenletének megadásával határozzuk meg a becsült perctérfogat értékeket! Ábrázoljuk diagramon mindkét értéket!
Teljesítmény (kg m/min)
Perctérfogat (liter/min)
Becsült perctérfogat (liter/min)
100
3.05
3.40
4.98
4.74
300
6.33
400
7.48
Perctérfogat (liter/min)
6.08
8.67
Becsült perctérfogat 8.76 (liter/min)
200 15 10 5
Perctérfogat
500
0 100
200
600 300
400
500
Teljesítmény (kg m/min)
600
9.98
7.42 10.10
Az egyenes pontjait a mérési tartományon túl is határozzuk meg! Ábrázoljuk diagramon mindkét értéket!
300
6.33
400
7.48
500
8.67
8.76
600
9.98
10.10
Teljesítmény (kg m/min) 0 100
700
Perctérfogat (l/min)
200
14 12 10 8 Perctérfogat 6 (liter/min) 4 2 3.05 0 4.980
Becsült perctérfogat (liter/min) 2.06 3.40 200
400 4.74
600
6.08 (kg m/min) Teljesítmény 7.42
11.43
800
Ábrázoljuk Ázsia lakosságának növekedését! Illesszünk egyenest, illetve exponenciális görbét a mérési adatokra!
y = 246.72e 0.233x R2 = 0.9823
1600 1400
y = 164.57x + 43.857 1200 R2 = 0.8824 1000
Ázsia
800
Lineáris (Ázsia)
600
Expon. (Ázsia)
400 200 0 1650
1700
1750
1800
1850
1900
1950
Határozzuk meg az adatokhoz illeszthető egyenes paramétereit a LIN.ILL függvény használatával! Határozzuk meg az adatokhoz illeszthető exponenciális görbe paramétereit a LOG.ILL függvény használatával!
Egyenes paraméterei:
Exponenciális görbe paraméterei:
m
b
m
b
3.29
-5222
1.004
0.143
y=3.29*x-5222 az egyenes egyenlete
y=0.143*1.004 x az exponenciális görbe egyenlete Vigyázat! A LOG.ILL y=b*mx alakú függvényt illeszt!
Másik lehetőség: XY pontpárokként ábrázoljuk, ekkor helyes az x tengely skálázása, és helyes eredményt ad a trendvonal illesztése. 1600
y = 0.1427e
1400
0.0047x
2
R = 0.9823 Ázsia
1200 1000
y = 3.2914x - 5222.4 2
800
R = 0.8824
600 400 200 0 Határozzuk meg Ázsia várható népességét 2000-ben, ha lineáris, 1600 1650 1700 1750 1800 1850 1900 1950 2000 illetve ha exponenciális növekedést tételezünk fel!
Használjuk a HATVÁNY(szám;kitevő) vagy a KITEVŐ(szám) függvényeket!
Két sejttípus növekedését vizsgálták. 1., Ábrázoljuk a szaporodást grafikonon! 2., Illesszünk exponenciális görbét a mérési pontokra! 0.4682x
y = 2.461e
300
Eltelt idő (nap)
2
1. 2. 250 sejttípus sejttípus
R = 0.9893
1
4 200
2
6
6 y = 2.6219e
3
11150
12
4
16
18
5
28
32
6
42 50
40
7
69
61
8
101
1 1102
9
152
149
10
242
100
0
3
0.4571x
2
R = 0.9982
3
4
5
6
7
8
9
10
1.250 sejttípus
2. sejttípus
Expon. (2. sejttípus)
Expon. (1. sejttípus)
A LOG.ILL függvény y=b*mx alakú függvényt illeszt. m
b
1. sejttípus
1.579518
2.621866
2. sejttípus
1.597121
2.461048
Tegyük fel, hogy az előbbi vizsgálatot nem naponként, hanem két naponként végezték. 3002.
0.4571x
Eltelt idő (nap)
1. sejttípus
sejttípus
1
4
3
3
6
y = 2.6219e 2 R = 0.9982
250 200
6
0.4682x
y = 2.461e 2 R = 0.9893
150
5
11
7
16
9
28
5032
11
42
040
13
69
61
15
101
110
12
100
18
1
3
5
7
9
11
13
15
17
19
1. sejttípus
2. sejttípus
Expon. (1. sejttípus)
Expon. (2. sejttípus)
17 152 Ha diagramon ábrázoljuk és149 az x értéktengelyt „csak” feliratozzuk, 19 görbék242 250 nem adnak helyes értéket! az illesztett paraméterei
1. lehetőség: xy pontpárokként ábrázolni az első adatsort, a másodikat hozzáadni. Ezután exponenciális trendvonal felvétele.
S ejtek szám a
300
0.2286x
y = 3.2951e
250
2
R = 0.9982
200
1. sejttípus 2. sejttípus Expon. (1. sejttípus) Expon. (2. sejttípus)
0.2341x
y = 3.1102e
150 100
2
R = 0.9893
50 0 0
5
10 Eltelt idő (nap)
15
20
2. lehetőség: Diagramon ábrázoljuk, de az exponenciális görbe paramétereit a LOG.ILL függvénnyel határozzuk meg. m
b
1.sejttípus
1.256
3.295
2.sejttípus
1.263
3.110
Határozzuk meg az egyes sejttípusokban a sejtek számát 25, 30, illetve 40 nap elteltével! Eltelt napok
1.sejttípus
2.sejttípus
30
3131
3490
35
9819
11251
40
30787
36270