ÖSSZEFÜGGÉSVIZSGÁLAT, PARAMÉTERBECSLÉS
Összefüggésvizsgálat, paraméterbecslés
A kísérletek során a rendszer állapotát jellemző paraméterek kapcsolatát vizsgáljuk. A nyert adatok alapján felállítjuk a rendszer matematikai modelljét, vagy ha már vannak ismereteink, akkor az előre felállított modell (hipotézis) érvényességét ellenőrizzük. Aszerint, hogy két paraméter (változó) vagy egyidejűleg több tulajdonság egymás közötti összefüggését vizsgáljuk, kétváltozós, illetve többszörös összefüggés-vizsgálatról beszélünk. Magát az összefüggést korrelációnak is nevezik. Az általunk tervszerűen változtatott paramétert független változónak, az ennek hatására változó másikat függő változónak tekintjük (szigorúan véve valamennyi paraméter valószínűségi változó).
Korreláció- és regresszióanalízis
Korreláció- és regresszióanalízis
Módszereit elsőként az örökléstannal foglalkozó K. Pearson dolgozta ki (1903). (Van olyan vélemény, hogy Galton volt az első.) Téma: a gyermekek termetének a szülők termetével való összefüggése. Maga a regresszió kifejezés is ebből az első alkalmazásból ered. Amikor felismerték, hogy nagyon magas vagy nagyon alacsony szülők gyermekei átlagban nem olyan magasak vagy alacsonyak, ezt a tendenciát úgy írták le, mint a „visszatérést (regressziót) az átlag felé”, és az ezt leíró egyenest „regressziós” egyenesnek nevezték el.
Korreláció- és regresszióanalízis
„Regressziós modell”: a két változó között eleve feltételezzük a lineáris kapcsolatot. „Korrelációs modell”: a két változó kapcsolatát leíró függvényről nincs előzetes feltételezésünk. A kétféle modell és elnevezés a gyakorlatban keveredik, szigorúan véve mindig korrelációs modellről kellene beszélnünk.
Korreláció- és regresszióanalízis
Amikor két mennyiség (változó) úgy függ össze egymással, hogy a független változó adott értékéhez a függő változó egy jól meghatározott értéke tartozik, függvénykapcsolatról beszélünk. y = f (x) Korrelációs kapcsolat: a független változó (x) minden értékéhez a függő változó (y) bizonyos statisztikus sokasága tartozik úgy, hogy az y eloszlása az x változásával meghatározott módon szintén változik. Ilyenkor az összefüggést az egyik változó (x) és a másik változó (y) várható értéke között tudjuk megadni.
Korreláció- és regresszióanalízis
A korrelációs kapcsolat közbenső állapotot foglal el a pontos függvényszerű összefüggések és a változók teljes függetlensége között. Az ilyen jellegű kapcsolatot sztochasztikusnak is nevezik. Az összefüggés e viszonylagosságának jellemzésére szolgál a korrelációs együttható (r), amelynek abszolút értéke 0 és 1 között változik. 0 a változók teljes függetlenségének, ±1 a pontos függvénykapcsolatnak felel meg. A korrelációs együttható négyzete a determinációs együttható (r2). Ez tulajdonképpen arra ad felvilágosítást, hogy a függő változó megváltozása milyen arányban köszönhető a független változó értékében bekövetkező változásnak, és milyen arányban egyéb − esetleg ismeretlen − tényezőknek.
Korreláció- és regresszióanalízis
Például ha r2 = 0,98, akkor azt mondhatjuk, hogy a függő változó (y) értékében bekövetkező változásoknak 98%-ban a független változó (x) megváltozása az oka, és csak 2%ban egyéb, általunk ismeretlen tényezők (lásd: zaj).
Kétváltozós lineáris regresszióanalízis
Korreláció- és regresszióanalízis
A regressziószámításban az egyik alapeset az, amikor a független változó (x) értékeit pontosnak, hibamentesnek tekinthetjük, és ennek függvényében vizsgáljuk a mért, hibákkal terhelt függő változó (y) értékeket. A két változó csak akkor cserélhető fel, ha a vonatkozó modell ezt megengedi, pl. kalibrációs függvények esetében ez mindig megengedett.
Korreláció- és regresszióanalízis
A regresszióanalízis alkalmazása során a következő feladatokat lehet megoldani: a) a két változó kapcsolatát leíró függvény állandóinak (paramétereinek) becslése, b) a linearitás hipotézisének vizsgálata (pl. a korrelációs együttható statisztikai próbájával), c) az illesztett függvény paramétereire vonatkozó hipotézisek vizsgálata, pl. az origón megy-e át az illesztett egyenes, d) konfidencia (megbízhatósági) intervallum számítása a függvény paramétereire, és az ezekből számított fizikai mennyiségek hibahatárainak becslése.
Korreláció- és regresszióanalízis
Ha a szabadon választott paraméter (független változó) és a mért mennyiség (függő változó) között ismeretes valamilyen elméleti összefüggés, akkor azt kell megvizsgálni, hogy érvényes-e az adott kísérletsorozatra. ???
A függvénykapcsolat gyakran nem ismeretes
???
Célszerű a korrelációt (összefüggést) kifejező ábrát készíteni: - Derékszögű koordinátarendszer: abszcissza → független változó (x), ordináta → függő változó (y). - A grafikon méretezés és skálázása: az adatok a két tengelyen közelítőleg azonos hosszúságú szakaszt fogjanak át.
Korreláció- és regresszióanalízis
Helyesen megválasztott tengelybeosztás a grafikus ábrázoláshoz
Helytelenül megválasztott tengelybeosztás a grafikus ábrázoláshoz
Korreláció- és regresszióanalízis
A legkisebb négyzetek módszere Ha van elképzelésünk arról, hogy milyen függvényt illesztünk adatainkhoz, meg kell határozni a függvény paramétereinek számszerű értékét: Olyan egyenlet meghatározása a cél, amelybe x különböző értékeit behelyettesítve y értékeit a lehető legpontosabban becsülhetjük. E számításhoz alkalmas a legkisebb négyzetek módszerén alapuló regresszióanalízis (Legendre, Gauss). Sokféle módszer létezik!
Korreláció- és regresszióanalízis
A legkisebb négyzetek módszere Mit is jelent? Lényeg: Ha megválasztottuk a görbe típusát (a függvényt), a paramétereket úgy határozzuk meg, hogy a mért függő változó értékek és az összefüggésből azonos független változó behelyettesítésével számolt értékek különbségeinek négyzeteit összeadva a kapott összeg minimális legyen.
Korreláció- és regresszióanalízis
Korreláció- és regresszióanalízis
Két különböző egyenes illesztése
Korreláció- és regresszióanalízis
Az egyenes egyenlete:
y = a + bx A paraméterek legvalószínűbb értéke az, amelyre a függvényből számított és a mért y értékek közötti eltérés négyzeteinek összege minimális, vagyis a minimalizálandó mennyiség: 2
2
Q = ∑ ( y j − f( x j ) ) = ∑ ( y j − a − bx j ) = minimum n
j =1
n
j =1
Korreláció- és regresszióanalízis
A minimum feltétele:
∂Q = 0; ∂b
∂Q n = ∑ − 2( y j − a − bx j ) x j = 0 ∂b j = 1
∂Q = 0; ∂a
∂Q n = ∑ − 2( y j − a − bx j ) = 0 ∂a j = 1
egyenletrendezés és a -2 szorzóval való egyszerűsítés után: n
n
∑x y j=1
j
j
= b∑ x + a ∑ x j j=1
n
∑y j =1
n
2 j
j=1
n
j
= an + b∑ x j j =1
Korreláció- és regresszióanalízis
A paraméterek értékei:
b=
n
n
n
j =1
j =1
n∑ x j y j − ∑ x j ∑ y j j =1 2
⎛ ⎞ n∑ x − ⎜⎜ ∑ x j ⎟⎟ j =1 ⎝ j =1 ⎠ n
n
2 j
n
a=
∑y j =1
=
x⋅ y − x ⋅ y x −x 2
n
j
− b∑ x j j =1
n
= y −b⋅ x
2
Korreláció- és regresszióanalízis
A linearitás hipotézisének vizsgálata (vagyis, hogy mérési adataink kapcsolata egyenes egyenletével adható-e meg), több módszerrel lehetséges. Itt csak a korrelációs együtthatóval foglalkozunk. Az értelmezéshez: Minden megfigyeléssorozathoz két regressziós egyenes illeszthető, az egyik esetben az x a független változó, a másikban esetben az y.
y = a yx + byx x x = axy + bxy y
Korreláció- és regresszióanalízis
Bár ez két regressziós egyenes, csak egyetlen korrelációs együttható létezik minden megfigyeléssorozatra. A korrelációs együttható azt mutatja meg, hogy a két egyenes mennyire esik közel egymáshoz. Minél szorosabb a korreláció, annál közelebb kerül egymáshoz a két egyenes, és viszont. Minél lazább a kapcsolat, annál széttartóbbak. Tökéletes korreláció (függvénykapcsolat) esetében (r = 1) a két egyenes egybeesik. Ha nincs kapcsolat (r = 0), a két egyenes merőleges egymásra. (A két egyenes metszéspontja mindig az x, y koordinátájú pont!)
Korreláció- és regresszióanalízis
Ez az összefüggés annyira egzakt, hogy a korrelációs együtthatót a két egyenes meredekségéből lehet számítani az
r = byx ⋅ bxy 2
képlet alapján. A változók felcserélése ebben az esetben a statisztikai eljárás része. Valójában csak abban az esetben cserélhető fel a függő és független változó, ha ezt a vonatkozó modell megengedi. (Kalibrációs függvények esetében ez megengedett.)
Korreláció- és regresszióanalízis
A korrelációs együttható számítása a korábbiak alapján a kiindulási adatokból képzett segédmennyiségekkel:
∑ (x n
r=
j =1
∑ (x
− x )⋅ ( y j − y ) 2
n
j =1
j
j
2
− x ) ⋅ ∑ (y j − y ) n
j =1
Korreláció- és regresszióanalízis
A korrelációs együttható statisztikai próbája Az r együtthatóra vonatkozó hipotézisvizsgálatok felépítése, gondolatmenete ugyanolyan, mint a többi feltevésvizsgálaté, különbség csupán a hipotézis megszövegezésében van. A nullhipotézis (a leggyakoribb esetben) így szól: a két változó független, vagyis az elméleti korrelációs együttható értéke nulla. (Természetesen az észlelési adatok hibáinak normális eloszlása nulla várható értékkel ebben az esetben is előfeltétel.) Linearizált összefüggés esetében a transzformált változók közötti kapcsolat szorosságára jellemző a korrelációs együttható, ezért a szignifikanciavizsgálat is ezekre vonatkozik.
Korreláció- és regresszióanalízis
Az r szignifikanciájának vizsgálata kapcsolatba hozható a t-próbával. Ezen az alapon kiszámították és táblázatba foglalták a szabadságfokok és a megfelelő valószínűségek függvényében a megfelelő r küszöbszámokat. Ezekkel kell összehasonlítani az általunk számított r abszolút értékét. A táblázatból kikeressük az n–2 szabadságfokhoz tartozó rα kritikus értéket. Ha rα<|rszámított|, akkor (1-α) statisztikus biztonsággal bizonyítottnak tekinthetjük, hogy r szignifikánsan eltér 0tól, vagyis az x és y változók kapcsolatát az általunk meghatározott egyenes egyenlete írja le.
Konfidencia (megbízhatósági) intervallum számítása az illesztett függvény paramétereire
Korreláció- és regresszióanalízis
A reziduális szórás Egy adott értékhez tartozó mért yi érték és a korábban ismertetett módon számított a és b paraméterekkel meghatározott egyenes egyenletéből számított y értékek különbségét (amelynek négyzetét minimalizáltuk) maradéknak vagy reziduumnak nevezzük. A reziduális szórás („illeszkedési szórásnégyzet”) :
∑ [(y − a − bx ) ] n
2 * S reziduális
=
j=1
n
2
j
j
n−2
=
2 ( ) ∆ y ∑ j j =1
n−2
Korreláció- és regresszióanalízis
A reziduális vagy illeszkedési szórás szemléletes jelentése: a reziduális szórás kijelöl egy sávot a regressziós egyenes körül ± irányban, amelyen belül található a konkrét eredmények bizonyos százaléka, a minta elemszámtól függően: n > 30 esetén a pontok kétharmada, n < 30-nál pedig a minta elemszámnak a konfidencia intervallumra gyakorolt hatásának megfelelően n-től függő hányada.
Korreláció- és regresszióanalízis
Az egyenes meredekségének (iránytangensének) statisztikai próbája 1. Az lineáris egyenletben szereplő b iránytangens becsült szórása (az Sb dimenziója megegyezik a b dimenziójával). * Sreziduális Sb = = Sx n
ahol
∑ (x
* Sreziduális
∑ (x n
n
Sx =
j =1
j
− x)
n
j
2
− x)
2
Korreláció- és regresszióanalízis
2. A b paraméter megbízhatósági (konfidencia) intervalluma:
b ± tα ⋅ Sb (1-α) valószínűséggel állíthatjuk, hogy valódi értéke ezen intervallumon belül található. (tα az (n-2) szabadság fokhoz tartozó táblázati érték, kétoldali szintnél.)
Korreláció- és regresszióanalízis
3. Előfordul, hogy az általunk meghatározott értéket össze akarjuk hasonlítani annak valódi értékével, ami lehet az irodalomból ismert, többféle módszerrel meghatározott adat. Ilyenkor t próbát végzünk. A próbastatisztika:
b−β t= Sb
ahol a regressziós egyenes iránytangensének elméleti, valódi értéke (a szabadságfoka n-2). Amennyiben |t| > tα, akkor azt mondhatjuk, hogy az általunk meghatározott b és annak valódi értéke (β) között lényeges (jelentős, szignifikáns) különbség van. Ellenkező esetben a mi adatunk nem tér el szignifikánsan a valódi értéktől.
Korreláció- és regresszióanalízis
A regressziós egyenletből számított függő változó (yj’) értékek hibája A felállított regressziós egyenletből kiszámítható a független változó valamely meghatározott xj’ értékéhez tartozó átlagos yj’ érték. Kérdés, hogy az yj’ értékre vonatkozó becslésünk mekkora hibával terhelt. A konfidenciahatárok számítására vonatkozó összefüggés:
y j' ± tα ⋅ S y
ahol
Sy = S
* reziduális
1 + n
(x − x ) ∑ (x − x ) 2
' j
n
j =1
j
. 2
Korreláció- és regresszióanalízis
Különböző értékeknél meghatározva a fenti kifejezés értékét, a regressziós egyenlet alatt és fölött megadhatunk (1-α) statisztikus biztonságot képviselő megbízhatósági határt. E két görbét konfidencia hiperbolának is nevezik, mert az összefüggés képe az (x , y ) koordinátákkal meghatározott ponton átmenő aszimptotákkal is jellemezhető hiperbola.
Korreláció- és regresszióanalízis
Az egyenes tengelymetszetének statisztikai próbája A tengelymetszet (a) az y értéke az x = 0 helyen. Gyakran az x = 0 a megfigyelési tartományon kívül esik, ezért az oda történő extrapolációnak csak akkor van értelme, ha egyéb olyan szakmai információk állnak rendelkezésünkre, amelyek reális fizikai jelentést tulajdonítanak az y = a + bx egyenletben szereplő a-nak. Ilyen esetben az Sy-ra vonatkozó összefüggésből az xj’= 0 helyettesítéssel kapjuk a tengelymetszet (a) megbízhatósági 2 intervallumát: 1 x
a ± tα ⋅ S a
* Sa = S reziduális
n
+
∑ (x n
j =1
j
− x)
2
Korreláció- és regresszióanalízis
Speciális esetként gyakran felmerül a kérdés, hogy a regressziós egyenes az origóból indul-e, vagy rendelkezik 0-tól különböző tengelymetszettel, azaz az általunk meghatá-rozott a szignifikánsan eltér-e nullától vagy nem. A nullhipotézis: H0 : aelméleti = 0 A feltevés ellenőrzése kétoldali t próbával próbastatisztika (a szabadságfokok száma n-2):
a − aelméleti t= Sa
lehetséges.
A
Amikor | t | > tα , akkor az a eltérése a nullától szignifikánsnak mondható, vagyis a regressziós egyenesünk nem az origóból indul, rendelkezik számottevő tengelymetszettel. Bármilyen más tengelymetszet értékre ugyanígy kell elvégezni a próbát.
Példa a kétváltozós összefüggés-vizsgálatra
Korreláció- és regresszióanalízis
Termoelem kalibrációs függvényének meghatározása, termofeszültség hőmérséklet-megfeleltetés A hőmérséklet és a termofeszültség kapcsolatát lineáris függvénnyel írjuk le. Ehhez négy adatpár áll rendelkezésünkre. A 0 °C referenciahőmérséklethez 0 mV tartozik. A tiszta anyagok (Sn, Pb, Zn) olvadáspontértékeit ismerjük az irodalomból, a hozzájuk tartozó termofeszültségeket a lehűlési görbékről mi olvassuk le. A négy adatpárra illesztett egyenes paramétereit grafikus értékelőszoftverrel határozzuk meg. A kalibrációs egyenes egyenlete:
T = a + b ⋅ U term.
Korreláció- és regresszióanalízis
A rendelkezésre álló adatok: U / mV 0,0 12,79 18,38 23,52 T / oC 0,0 231,9 327,4 420,0
A függvény paraméterek: a = 0,98192 °C b = 17,8345 °C/mV A termofeszültség adatokat a T = 0,98192 oC + 17,8345 (oC mV )⋅ U term. egyenletbe helyettesítve megkapjuk a hőmérsékletértékeket.