Alkalmazott statisztika
Csanády Viktória Horváth-Szováti Erika Szalay László
Nyugat-magyarországi Egyetem Sopron, 2013 TALENTUM TÁMOP 4. 2. 2/B – 10/1 – 2010 - 0018 cím: 9400 Sopron, Erzsébet u. 9. telefon: 99 518-491 e-mail:
[email protected]
Felelős kiadó: Prof. Dr. Németh Róbert tudományos és külügyi rektorhelyettes
Szerkesztők: Dr. Németh László Dr. Szalay László
Lektorálta: Prof. Dr. Závoti József
Szerzők: 1. Fejezet: Dr. Csanády Viktória 2. Fejezet: Dr. Horváth-Szováti Erika 3. Fejezet: Dr. Horváth-Szováti Erika 4. Fejezet: Dr. Szalay László Nyugat-magyarországi Egyetem Erdőmérnöki Kar Matematikai Intézet 9400 Sopron, Ady Endre út 5.
Kiadó: Nyugat-magyarországi Egyetem Kiadó 9400 Sopron Bajcsy-Zsilinszky utca 4.
ISBN 978-963-334-243-5 Sopron 2013
Tartalomjegyzék
Bevezetés ....................................................................................................5 Alkalmazott programcsomag ..................................................................7 1.
Regresszió számítás és korreláció .................................................9 1.1. Egyváltozós lineáris és nem lineáris regresszió, korreláció...........9 1.2. Nem lineáris regressziók alkalmazása gyakorlati példákban.......10 1.2.1. Növekedési függvények ..........................................................11 1.2.2. Rönkleltár................................................................................21 1.2.3. Faanyagszárítás .......................................................................22 1.2.4. Anyaglehűlés ..........................................................................24 1.2.5. Hangerő ingerérték .................................................................26 1.2.6. Lövedékpálya ..........................................................................28 1.2.7. Lázgörbe .................................................................................30 1.2.8. Napi levegő hőmérséklet ........................................................32 1.2.9. Ötvözet vezetőképesség ..........................................................34 1.2.10.
Huzalfeszítés .....................................................................36
1.2.11.
Radioaktív sugárintenzitás ................................................38
1.2.12.
Toboztömeg változás ........................................................40
1.2.13.
I. és IV. fatermési osztály vizsgálata akác esetén .............42
1.2.14. Hat fatermési osztály összefoglaló vizsgálata akác esetén ......................................................................................55 1.3. Összefoglaló az alkalmazott modellekből ...................................61 1.4. Összefüggéseket leíró függvények keresése adathalmazok vonatkozásában ............................................................................65 1.4.1. Elvi alapok ..............................................................................65 1.4.2. Adathalmaz választás ..............................................................66
2 1.4.3. Regressziós kísérletsorozat és elemzés................................... 68 1.5. Értékelés és összefoglalás ............................................................ 81 1.6. Statisztikai melléklet a korrelációs vizsgálathoz ......................... 81 1.7. Többváltozós lineáris és nem lineáris regresszió......................... 82 1.8. Biometriai többváltozós kísérletek elemzése............................... 83 1.8.1. Első kísérlet (gabonafélék növekedése).................................. 84 1.8.2. Második kísérlet (gyomirtó szer hatása) ................................. 87 1.8.3. Harmadik kísérlet (nyomószilárdság vizsgálat)...................... 89 2.
Főkomponens-analízis ................................................................. 93 2.1. Bevezetés ..................................................................................... 93 2.2. A főkomponens-analízis matematikai alapja ............................... 94 2.3. A főkomponens analízis lépései .................................................. 97 2.4. Főkomponens-analízis STATISTICA 11 programcsomag segítségével .................................................................................. 98 2.5. A főkomponens-analízis alkalmazhatóságának vizsgálata ........ 113
3.
Faktoranalízis ............................................................................. 115 3.1. A faktoranalízis matematikai modellje ...................................... 115 3.2. A faktoranalízis menete ............................................................. 117 3.2.1. A faktorok számának meghatározása ................................... 119 3.2.2. A faktorsúlyok kiszámítása................................................... 121 3.2.3. A faktor-rotáció .................................................................... 122 3.2.4. A faktoranalízis megbízhatóságának vizsgálata ................... 126 3.2.5. A faktorértékek kiszámítása ................................................. 127 3.3. Egy további példa a faktoranalízis alkalmazására ..................... 128 3.4. A faktoranalízis alkalmazhatóságának feltételei és a tapasztalatok összegzése ...................................................................... 135 3.4.1. Alkalmazhatósági feltételek.................................................. 135 3.4.2. A faktoranalízissel kapcsolatos tapasztalataink összegzése . 137 3.5. A főkomponens-analízis és faktoranalízis összehasonlítása...... 137
4.
Klaszteranalízis...........................................................................149 4.1. Alapfogalmak.............................................................................152 4.2. Partíciós módszer: a k-közép eljárás ..........................................154 4.2.1. Első klaszterezés ...................................................................155 4.2.2. Második klaszterezés ............................................................157 4.3. Hierarchikus módszer ................................................................160 4.4. A Statistica programcsomag „Cluster” modulja ........................162 4.4.1. Joining (tree clustering) ........................................................165 4.4.2. K-means clustering ...............................................................168
Felhasznált irodalom ............................................................................173
Bevezetés
Ez az egyetemi jegyzet a statisztika négy területét elemzi, elsősorban gyakorlati szempontból. A regressziószámítás, a főkomponens-analízis, a faktoranalízis és a klaszteranalízis alkalmazási lehetőségeit vizsgáljuk valós életből vett példák alapján, nagy hangsúlyt fektetve a számítások Statistica programcsomaggal történő elvégzésére. Ahol szükségesnek láttuk, röviden az elméleti hátteret is áttekintettük. Elsősorban a Nyugat-magyarországi Egyetem PhD és master hallgatóinak figyelmébe ajánljuk, de Tudományos Diákköri Konferenciára készülők is haszonnal forgathatják. Alapvető számítástechnikai ismeretek birtokában bárki elsajátíthatja az algoritmusok számítógéppel történő használatát. Köszönetünket fejezzük ki az Erdőmérnöki Kar vezetésének, amiért támogatta és lehetővé tette a jegyzet létrejöttét, megjelenését.
2013. szeptember 15. A szerzők
Alkalmazott programcsomag Az alábbiakban tárgyalásra és bemutatásra kerülő statisztikai alkalmazások minden esetben a STATISTICA 11. programcsomag [10] felhasználásával készültek. A STATSOFT weblapja a következő tömör jellemzést adja termékéről: „A STATISTICA összetett programrendszer, mely integrált adatelemző, megjelenítő, adatbáziskezelő és alkalmazásfejlesztő eszközeivel az egyszerűtől a legmagasabb szintig az analitikai módszerek széles skáláját biztosítja az üzleti, tudományos, adatbányász vagy mérnöki alkalmazásokhoz. A STATISTICA az általános célú statisztikai, grafikai és adatkezelő eljárásokon túlmenően számos speciális adatelemző eljárást is tartalmaz (például adatbányászati, üzleti, társadalomtudományi, orvosi kutatási, mérnöki alkalmazásokhoz). A STATISTICA termékcsalád analitikai eszközeit integrált csomag formájában nyújtja. Az eszközök használatához alternatív felületek állnak rendelkezésre, valamint az ipari szabványnak tekinthető, Visual Basic alapú programnyelv. Az interaktív felhasználói felület könnyen konfigurálható, a programnyelv (STATISTICA Visual Basic) segítségével pedig bármilyen bonyolultságú feladat automatizálható, legyen szó egyszerű makrórögzítésről, vagy összetett, nagy léptékű fejlesztési feladatról (például egyedi kiegészítés, mely más alkalmazásokkal köti össze, vagy vállalati szintű, intranet/internet alapú rendszerbe integrálja a STATISTICA programot).” A fenti összefoglalóból kitűnik a programcsomag széleskörű alkalmazhatósága. A felkínált lehetőségek közül itt csak néhány került felhasználásra, elsősorban a mérnöki gyakorlatban gyakran előforduló vizsgálatok. Röviden összefoglalva, a programcsomag segítségével tetszőleges igény szerint megkaphatjuk a szükséges leíró statisztikai jellemzőket megfelelő igény szerint választható ábrákkal, melyek a gyors adatismereti eligazodásban segítenek. Elvégezhetők a különböző próbák, paraméteres, nem paraméteres esetben, természetesen szabadon választható szignifikancia szintek mellett. Lehetőség van a variancia analízis körében egyszeres, többszörös osztályozásra, a kritérium próbák vizsgálata mellett, továbbá adott regressziós modellek használatára. Mindez azonban, ami felsorolásra került, valójában egy végzett mérnök tanulmányaiban már szerepet kapott, és nagyon csekély része csupán a statisztikai lehetőségeknek. Emiatt itt a későbbiekben néhány gyakran használt statisztikai vizsgálat kerül bemutatásra, a fejezetek sorrendjében, a regresszió és korreláció számítás, egy és többváltozós esete, a többváltozós statisztikai vizsgálatok közül a főkomponens analízis, a faktoranalízis és végül a klaszteranalízis. Rövid elméleti bevezetést követően, minden esetben gyakorlati példák bemutatására kerül sor, a program felhasználásával. A program használata könnyen elsajátítható, menü rendszere áttekinthető. Az adatbevitelt követően választási lehetőség nyílik a különböző vizsgálatokra, a kiválasztott modul paraméterei választhatók, valamint lehetőség van a vizsgálati módszer típusá-
8 nak kiválasztására is, példaként mód van arra, hogy milyen matematikai módszert kíván a felhasználó alkalmaztatni az algoritmusban. A felsorolt tárgyalásra kerülő vizsgálati módszereken kívül, ahogy azt az idézett összefoglaló is tartalmazta, számos más vizsgálatra is lehetőség nyílik. Itt feltétlenül megemlítendő az idősorok vizsgálata, a trendszámítás, az elméleti kutatások mellett gyakorlatban előforduló teljesítmény elemzés, valamint a különböző ipari minőség ellenőrzési vizsgálatok, ipari folyamat vizsgálatok. Mindezek részletes bemutatása többszörös terjedelmet igényelne, nem ez a célja a szerzőknek. Jelen kiadvány segítséget kíván adni azon végzett mérnökök számára, akik kutatásaik során szembesülnek az itt általuk bemutatott vizsgálati módszerek valamelyikével.
1. Regressziószámítás és korreláció A regresszió számítás során valószínűségi változók – esetünkben kísérleti adatok – tendenciáját regressziós függvénnyel jellemezhetjük. Csoportosítva ezeket a következő osztályozás lehetséges: • egy független változós lineáris és nem lineáris regresszió, • több független változós lineáris és nem lineáris regresszió. A korrelációs együttható lineáris modell esetén jellemzi a két változó lineáris kapcsolatának szorosságát, ezért is nevezzük helyesen lineáris korrelációs együtthatónak (r). Számítása itt nem kerül bemutatásra, a hallgató a Statisztika tárgy keretében már találkozott vele. Nem lineáris modell esetén az úgynevezett korrelációs vizsgálatot alkalmazzák, ami egy F-próbára vezet, általa van lehetőség a kapcsolat szorosságának vizsgálatára.
1.1. Egy független változós lineáris és nem lineáris regresszió, korreláció Az egyváltozós lineáris regresszió célja azon egyenes meredekségének és tengelymetszetének a meghatározása, amely a lehető legjobban közelíti a ponthalmaz – feltételezett lineáris – sztochasztikus kapcsolatát. A ponthalmaz ismeretében a regressziós egyenes meghatározásának egyik módszere a Gauss-féle legkisebb négyzetek módszerének elve. Ennek során meghatározásra kerül a ponthalmaz pontjainak a lineáris modelltől vett y irányú távolságainak négyzetösszege. A négyzetösszeg a meredekség és tengelymetszet vonatkozásában egy két független változós függvényt eredményez, mely függvénynek, az említett módszer a minimumát keresi. Ennek részletes matematikai levezetését a hallgatók Matematika I. tárgy keretéből ismerhetik. A módszer lényege a kétváltozós függvény szélsőérték problémájából adott, szükséges feltételként meghatározásra kerülnek a változók szerinti parciális deriváltak, majd zérusra rendezve adott a lineáris regresszió normál egyenletrendszere, ennek megoldása pedig megadja a keresett meredekség és tengelymetszet értékét. Ugyanezen elv alapján határozhatók meg a nem lineáris regressziós modell paraméterei. A legkisebb négyzetek elve ebben az esetben is alkalmazható. A minimalizálandó többváltozós függvény előállítható, a parciális deriváltak számíthatók. A fő problémát azonban legtöbb esetben az okozza, hogy a parciális deriváltakból képzett egyenletrendszer hagyományos kézi módszerekkel nem megoldható. Ezért korábban, a számítógép adta lehetőségek hiányában különböző matematikai módszerek bevetésével próbálkoztak, így például a modell sorbafejtésével. Egy másik ismeretes módszer az úgynevezett linearizálás volt, ami bizonyos egyszerűbb modellek esetén szóba jöhetett, így
10 egy közönséges exponenciális függvény függőleges eltolási paraméter nélkül logaritmizálva lineáris alakot adott. Más esetben egyszerűen átjelöléssel próbálkoztak. Ezek a módszerek azonban lényegesen leszűkítették az alkalmazható modellek számát. A számítógép adta lehetőség, a számítások többszörös és rendkívül gyors ciklikus elvégzése nem igényel már efféle beavatkozást. Természetesen a megfelelő modellt a felhasználónak kell megadnia, ezt követően választhat a számításhoz felhasznált matematikai módszerek közül, viszont ismernie kell a kiválasztott modell matematikai tulajdonságait. A program lefuttatása azonban okozhat nehézséget, így például bonyolultabb modell esetén, mivel az algoritmus kezdőértékeket igényel a meghatározandó paraméterekre. Ezen kezdőértékek megadása viszont a modell ismeretére és a ponthalmaz viselkedésére épül. Fontos tehát az, hogy a megfelelően választott kezdőértékek a számítást jó irányba tereljék, ehhez esetleg további lépésköz finomításra is szükség lehet. Optimális esetben a program megadja a számunkra legkedvezőbb paraméterértékeket, valamint a kapcsolat szorosságát, azaz az R értékét. A R értéke nem egyezik meg az úgynevezett r lineáris korrelációs együttható értékével, és így persze annak számítása is eltér attól. A R értékét a korreláció számítás varianciáinak felhasználásával adják meg, a kapcsolat annál szorosabb minél közelebb van az R értéke az egyhez, akár a lineáris korrelációs együttható esetében. A két érték azonban nem lineáris modell illesztése esetén eltér, nem ugyanaz, nyilván nem lineáris modell esetén a lineáris korrelációs együttható nem használható, hamis kapcsolatot jellemez. A R nagysága azonban ne ösztönözzön arra, hogy modell változtatással, az értékét az egyhez közelítsük. Előfordulhat, hogy egy folyamatot jól leíró modell R értéke kisebb, mint a folyamatot csak interpoláló görbe R értéke. Modell választás esetén törekedni kell arra, hogy a regressziós függvény lehető legjobban kövesse a ponthalmaz tendenciáját, paraméterei fizikailag értelmezhetők legyenek, vegye figyelembe a ponthalmaz korlátosságát, esetleges aszimptotikusságát, vagy egyéb matematikai tulajdonságait.
1.2. Nem lineáris regressziók alkalmazása gyakorlati példákban A természetben előforduló különböző folyamatok vizsgálata során nyert egy független és egy függőváltozós adatsorokra regressziós eljárással matematikai függvények illeszthetők, melyek meghatározzák a folyamatok törvényszerűségét. Az adatsorok által meghatározott pontok grafikus szemlélete alapján mód van megfelelő illesztendő függvény vagy függvények kiválasztására. A helyes döntést alapvetően a számítógépes regressziós eljárás végrehajtása során nyert 1-hez legközelebb álló korrelációs együttható (R) indokolhatja amellett, hogy a kiválasztott függvény nyert paraméterei a valóságnak megfelelően értelmezhetők legyenek.
A bemutatásra és elemzésre kerülő adatsorok a természetben előforduló folyamatok adatsorait modellezik a gyorsabb és egyszerűbb regressziós eljárások alkalmazása és értékelése érdekében.
1.2.1. Növekedési függvények 1.2.1.1. Telítési függvény (Awrami) Az első adatsor az idő függvényében a fanövekedés értékeit tartalmazza [2]. Az adatsor előzetes áttekintése vagy grafikus ábrázolása alapján könnyen megállapítható, hogy a függvény illesztéséhez telítési függvény alkalmazása a célszerű. A matematikai alak: = 1 − + (Awrami-görbe). A számítógépes alak: 2 = 3∗ 1−
−1 ∗
2∗
1 ⌃ 1
+ 0.
A változók: 1 = évek száma (év), 2 = famagasság (m). Az adatsort, a regressziós eljáráshoz szükséges kezdőértékeket, a nyert paraméter értékeket, a korrelációs együtthatót és az értelmezést az alábbi táblázatok tartalmazzák. 1.1. Példa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 2 6 10 14 18 22 26 30 36 42 48 54 62 70
1
Adatok
1.1. táblázat
2 0,19 0,46 1,91 4,12 6,81 9,72 13,61 16,82 18,31 21,62 23,02 24,01 24,72 25,05 25,09
12 Kezdőértékek: b3=b2=b1=b0=0,1 (a programban alapbeállításként szereplő értékek, módosítást nem igényelnek). Kapott értékek:
N=15 Estimate
Model: var2=b3*(1-exp(-1*((b2*var1)^b1)))+b0 (pelda1) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,929228643 R= ,99965 Variance explained: 99,929% b3 b2 b1 b0 24,78002 0,039166 1,922410 0,265289
Értelmezés: b3+b0 = az elért legnagyobb (végső) famagasság (m), b0 = a kezdő famagasság (m). Megadható az a 1 érték (x), melynél a határértéktől való eltérés 1%-os a 2-re nézve. Ez az alábbi képlettel számítható: ! =
"
"
!# !
"$$
"%
) − ! 2.
&' &(
Az illesztés grafikus reprezentációját a 1.1. ábra mutatja.
1.1. ábra
Az előző függvény illesztése módosított kezdőértékekkel az alábbi. Kezdőértékek: b3=b2=b1=b0=1. A kapott értékek: Model: var2=b3*(1-exp(-1*((b2*var1)^b1)))+b0 (pelda1) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,929228644 R= ,99965 Variance explained: 99,929% N=15 b3 b2 b1 b0 Estimate 24,78002 0,039166 1,922409 0,265285
1.2. ábra
Mint ahogy az az eredményekből is látható az Awrami függvény illesztése a kezdőértékekre kevésbé érzékeny. Megismételve a kísérletet az alábbi kezdőértékekre: b3=10, b2=0,5, b1=0,1, b0=1. Az eredmények az alábbiak:
N=15 Estimate
Model: var2=b3*(1-exp(-1*((b2*var1)^b1)))+b0 (pelda1) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,929228643 R= ,99965 Variance explained: 99,929% b3 b2 b1 b0 24,78003 0,039166 1,922409 0,265284
14
1.3. ábra
Az eredmény azt mutatja, hogy a függvény kezdőértékek beállítása a felhasználó számára nem okoz jelentős gondot. Nem ezt tapasztaljuk más típusú növekedési görbék estén. Ezen kívül a már fentiekben történő paraméter értelmezés minden esetben megállja a helyét. Az Awrami féle telítési függvényen kívül még számos hasonló növekedési görbe létezik. Az egyszerűbb nem rendelkezik inflexiós ponttal, az összetettebbek igen. Az alábbiakban a felhasznált példasor alkalmazásával megadásra kerül illesztési eredményük, a paraméterek, a korrelációs együttható értéke, valamint illesztési ábráik, végül, de nem utolsó sorban a futtatásnál módosított kezdőértékek melyek módosítása nélkül nem kapunk eredményt, vagy ha igen csak gyenge korrelációval. A paraméterek kezdőértékeinek kiokoskodása a függvény matematikai jellemzőinek ismeretében történhet, figyelembe véve az adatsort. Minden egyes illesztésnél a 2 mint függő változó a famagasságot jelöli, 1 a független változó, az idő függvényében. 1.2.1.2. Bertalanffy növekedési függvénye Nem adunk példát a kezdőértékek módosítására, mivel alapvetően látható, hogy a függvény nem rendelkezik inflexiós ponttal, ami a példa esetében nem ad kedvező eredményt, bár az R értéke magas.
Bertalanffy növekedési függvény matematikai alakja: = 1 − Számítógépes alak: 2= 2∗ 1− 1∗ −1 ∗ 0 ∗ 1 . Kezdőértékek: b2=b1=b0=0,1.
*
.
Az illesztés eredménye és ábrája:
N=15 Estimate
Model: var2=b2*(1-b1*exp(-1*(b0*var1))) (pelda1) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: 34,694807684 R= ,98669 Variance explained: 97,356% b2 b1 b0 31,56415 1,069303 0,028769
1.4. ábra
1.2.1.3. Mitscherlich növekedési függvénye Mitscherlich növekedési függvény matematikai alakja: Számítógépes alak: 2= 2∗ 1− −1 ∗ 1 ∗
= 1− 1 ⌃ 0.
*
.
Első esetben hagyjuk meg az Awraminál alkalmazott 0,1 kezdőértéket minden paraméter esetén. Az eredmények nem különböznek az alábbiakban adott kezdőértékeknél kapott eredménytől. Kezdőértékek: b2=b1=b0=1.
16 Az illesztés eredménye és ábrája:
N=15 Estimate
Model: var2=b2*(1-Exp(-1*b1*var1))^b0 (pelda1) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: 2,393042626 R= ,99909 Variance explained: 99,818% b2 b1 b0 25,85456 0,077052 3,136495
1.5. ábra
A következő függvény esetében azonban már látható, hogy jelentős eltérések adódnak az illesztés eredményében a kezdőérték változtatás miatt. 1.2.1.4. Richards növekedési függvénye
* + Richards növekedési függvény matematikai alakja: = 1 − . Számítógépes alak: 2= 3∗ 1− 2∗ −1 ∗ 1 ∗ 1 ⌃ 0. Kezdőértékek: b3=b2=b1=b0=0,1.
Az eredmények:
N=15 Estimate
Model: var2=b3*(1-b2*Exp(-1*b1*var1))^b0 (pelda1) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: 1312,3993467 R= -- Variance explained: -- % b3 b2 b1 b0 11,17133 0,999978 0,979367 1,009495
1.6. ábra
Az eredmény értékelhetetlen. Ismételve a kísérlet módosított kezdőértékekkel. Kezdőértékek: b3=10, b2= –1, b1=0,5, b0=0,1. Az illesztés eredménye és ábrája:
N=15 Estimate
Model: var2=b3*(1-b2*Exp(-1*b1*var1))^b0 (pelda1) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,822595191 R= ,99969 Variance explained: 99,937% b3 b2 b1 b0 25,37320 -0,554243 0,095852 -9,73876
18
1.7. ábra
Hasonló eredményeket produkálhatunk a helyes kezdőértékek megválasztása nélkül az alább megadott függvények esetén, gondolva, hogy az illesztett függvény nem alkalmazható. A példák is azt mutatják, hogy a helyes kezdőérték megválasztása kulcskérdés, ami viszont matematikailag sem egyszerű, nem beszélve a paraméterek értelmezhetőségéről, ami az utóbb felsorolt illetve az alább bemutatott függvények esetében sem egyértelműen magyarázható. Bár a korrelációs együtthatók a jól megválasztott (nem egyszerű kiválasztás révén) megadott kezdőértékek esetére magas értéket mutatnak, a paraméterek többségében leginkább nehezen vagy egyáltalán nem értelmezhetők. 1.2.1.5. Chapman-Richard függvény Chapman-Richards növekedési függvény Gál János [17] által módosítva. * Matematikai alak: = 1 − . Számítógépes alak: 2= 2∗ 1− 1∗ 1 ⌃ 0. Kezdőértékek: b2=10, b1= –1, b0=0,5. Az illesztés eredménye és ábrája:
N=15 Estimate
Model: var2=b2*(1-Exp(b1*var1))^b0 (pelda1) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: 2,393042626 R= ,99909 Variance explained: 99,818% b2 b1 b0 25,85457 -0,077052 3,136496
1.8. ábra
1.2.1.6. Colin-Fokasz függvény Colin-Fokasz 3.
növekedési függvényénak matematikai alakja:
=
"%*. /0 1/2
Számítógépes alak: 2 = 0+ 1− 0 / 1+ 2∗
−1 ∗ 3 ∗
Kezdőértékek: b0=10, b1= –1, b2=0,5, b3=0,1, b4=1. Az illesztés eredménye és ábrája:
1− 4
⌃ 1/ 2 .
+
20
N=15 Estimate
Model: var2=b0+(b1-b0)/(1+b2*Exp(-1*b3*(var1-b4)))^(1/b2) (pelda1) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,717894104 R= ,99973 Variance explained: 99,945% b0 b1 b2 b3 b4 25,39397 -1,28865 1,733523 -0,155553 18,46158
1.9. ábra
A fenti példák azt illusztrálják, hogy bár számos telítési, nevezzük inkább növekedési folyamatot részében vagy teljességében (negatív értékekre is értelmezett) leíró függvényt ismerünk (4), ezek alkalmazása a gyakorlatban a számítógépes statisztikai programok használata esetén is gondot okoz. Az alkalmazott modell megválasztás esetén szem előtt tartandók az igények a paraméterek értelmezhetőségére, valamint a kezdőértékek megválasztásának illetve kiválasztásának egyszerűségére, nem beszélve a modell alkalmazhatóságáról (az Awrami féle függvény akkor is alkalmazható, ha nincs inflexiós pont). Ezen kívül a modell értelmezési tartományának vizsgálata sem elhanyagolható, a már említett negatív független változók (példákban az idő) vonatkozásában, hiszen ez nem értelmezhető.
1.2.2. Rönkleltár A második adatsor a faraktárban található válogatással nyert rönkök leltárát elemzi az átmérő függvényében található darabszám szerint. Az adatsor egyszerű áttekintése alapján rögtön megállapítható, hogy megfelelően transzformált Gauss-görbe illesztése a célszerű. A matematikai alak:
=
.
-
& 1/
6
+ .
A számítógépi alak: 2 = 3/exp 2 ∗ 1 − 1 ∗ 1 ⌃2 + 0. A változók: 1= fatörzsátmérő (cm), 2= darabszám (db). Az adatsort, a regressziós eljáráshoz szükséges kezdőértékeket, a nyert paraméter-értékeket, a korrelációs együtthatót és az értelmezést az alábbi táblázatok tartalmazzák.
1.2. Példa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
26 28 30 32 34 36 38 40 42 44 46 48 50 52 54
1
Adatok 1 3 8 21 35 45 54 60 55 43 37 24 10 5 2
2
1.2. táblázat
Kezdőértékek: b3=b2=b0=1, b1=40 (a programban alapbeállításként szereplő értékek, módosítást igényelnek)
22 A számított illesztési értékek:
N=15 Estimate
Model: var2=b3/exp((b2*(var1-1*b1))^2)+b0 (példa2) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: 47,132016006 R= ,99631 Variance explained: 99,264% b3 b2 b1 b0 62,00369 0,119303 40,13033 -3,50099
Értelmezés: b3+b0 = a legnagyobb darabszám, b1= a legnagyobb darabszámhoz tartozó törzsátmérő.
1.10. ábra. A rönkleltár illesztés grafikus reprezentációja
1.2.3. Faanyagszárítás A harmadik adatsor a faanyag szárítási folyamata során nyert értékeket tartalmazza az idő függvényében. Az adatsor áttekintése vagy grafikus ábrázolása alapján eldönthető, hogy megfelelően transzformált tangens hiperbolikus görbe illesztése vezet helyes eredményre és értelmezhető paraméterekhez. A matematikai alak:
=
tanh
−>
+
.
A számítógépi alak: 2 = 3 ∗ tanh 2 ∗ 1 − 1 ∗ 1 + 0. A változók: 1 = az eltelt idő (óra), 2 = a nedvességtartalom (%). Az adatsort, a regressziós eljáráshoz szükséges kezdőértékeket, a nyert paraméter-értékeket, a korrelációs együtthatót és az értelmezést az alábbi táblázatok tartalmazzák. 1.3. Példa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
1
Adatok
2 26,9 26,6 26,1 25,4 24,7 22,1 19,4 15,3 10,4 7,3 5,6 4,1 3,8 3,4 3,1 3
1.3. táblázat
Kezdőértékek: b3=b2=b0=1, b1=15 (a programban alapbeállításként szereplő értékek, módosítást igényelnek) A számított értékek: Model: var2=b3*tanh(b2*(var1-1*b1))+b0 (példa3) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,718110358 R= ,99976 Variance explained: 99,952% N=16 b3 b2 b1 b0 Estimate -11,8755 0,185932 14,02402 14,92063
24 Értelmezés: b0–b3 = a kezdeti nedvességtartalom (%), b0+b3= a végső nedvességtartalom (%).
1.11. ábra. A faanyagszárítás illesztés grafikus reprezentációja
1.2.4. Anyaglehűlés A negyedik adatsor az idő függvényében történő anyag lehűlés értékeit tartalmazza. Az adatsor egyszerű áttekintése vagy esetleges grafikus ábrázolása alapján ebben az esetben megállapítható, hogy a függvényillesztéshez egy megfelelően transzformált exponenciális („negatív exponenciális”) görbe alkalmazása lehet a legmegfelelőbb. A matematikai alak:
-
= . & 1/ + .
A számítógépi alak: 2 = 3/ 2∗ 1−1∗ 1 A változók: 1 = idő (min), 2 = hőmérséklet (Co ).
+ 0.
Az adatsort, a regressziós eljáráshoz szükséges kezdőértékeket, a nyert paraméter értékeket, a korrelációs együtthatót és az értelmezést az alábbi táblázatok tartalmazzák:
1.4. Példa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 2 4 6 8 10 12 14 15 16 18 20 25 27 30
1
Adatok
2
50 38,1 29,1 23,4 18,1 14,4 12,6 10,1 9,7 8,9 8,2 7,2 6 5,6 5,5
1.4. táblázat
Kezdőértékek: b3=b2=b1=b0=1 (ebben az esetben is szükséges az alapértékek módosítása). A számított paraméterek és a korrelációs együttható: Model: var2=b3/exp(b2*(var1-1*b1))+b0 (Spreadsheet4) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,765464092 R= ,99984 Variance explained: 99,969% N=15 b3 b2 b1 b0 Estimate 14,92291 0,153119 7,191448 5,063373
Értelmezés: b0 = a mért legalacsonyabb hőmérséklet (véghőmérséklet), 3 ? " + 0 = a mért legmagasabb hőmérséklet (kezdőhőmérséklet).
26
1.12. ábra. Az anyaglehűlés illesztés grafikus reprezentációja
1.2.5. Hangerő ingerérték Az ötödik adatsor a hangerő függvényében észlelhető ingerértékek elméleti adatait mutatja. A pontsor grafikus ábrázolása alapján logaritmikus függvény illesztése látszik legmegfelelőbbnek, ha az alkalmazott függvényt előzetesen megfelelően transzformáljuk, lehetővé téve az origóból való kiindulást a kezdő adatpár miatt. A matematikai alak: = ! −> + . A számítógépi alak: 2 = 3 ∗ @A 2 ∗ 1−1∗ 1 A változók: 1 = hangerő (dB), 2 = ingerérték (i).
+ 0.
Az adatsort, a regressziós eljáráshoz szükséges kezdőértékeket, a nyert paraméterértékeket, a korrelációs együtthatót és az értelmezéseket az alábbi táblázatok tartalmazzák:
1.5. Példa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 0 1 2,1 3,2 4,3 5 7,2 9,1 11,3 15,3 21,2 30,3 45 60 80,2 100
Adatok
2 0 0,7 1,24 1,66 2 2,18 2,66 2,97 3,29 3,75 4,26 4,83 5,48 6 6,45 6,83
1.5. táblázat
Kezdőértékek: b3=b2=b0=1, b1= –1 (módosított értékek). A számított paraméterek és a korrelációs együttható: Model: var2=b3*log(b2*(var1-1*b1))+b0 (Spreadsheet8) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,001401137 R= ,99999 Variance explained: 99,998% N=16 b3 b2 b1 b0 Estimate 1,738903 1,539166 -1,99920 -1,95678
Értelmezés: b0 = a mért legalacsonyabb ingerérték, 3 ! 2 100 + 1 − 0 = a legmagasabb mért ingerérték.
28
1.13. ábra. A hangerő ingerérték illesztés grafikus reprezentációja
1.2.6. Lövedékpálya A hatodik adatsor egy kilőtt lövedék útjának adatait mutatja. A pontsor értékeinek áttekintése és a gyakorlati ismeretek és elemzés alapján könnyen megállapítható, hogy a görbeillesztésre parabola - másodfokú hatvány függvény - a megfelelő a szükséges transzformálással. A matematikai alak: = − ? + >. A számítógépi alak: 2= 2∗ 1 − 1 ∗ 1 ⌃2 + 0. A változók: 1 = a vízszintesen mért távolság (m), 2 = a lövedék magassága. Az adatsort, a regressziós eljáráshoz szükséges kezdőértékeket, a nyert paraméterek értékeit, a korrelációs együtthatót és az értelmezést az alábbi táblázatok tartalmazzák:
1.6. Példa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1
Adatok
0 6,5 12,9 23 33 43,1 49,5 56 71 91,1 109 120,4 134 149,8 177,1
2
0 1,01 1,94 3,25 4,41 5,41 5,96 6,45 7,32 7,94 7,93 7,68 7,07 6,01 3,21
1.6. táblázat
Kezdőértékek: b2= –0,001, b1= 80, b0= 0,1 tása szükséges).
(a kezdőértékek módosí-
A számított eredmények: Model: var2=b2*(var1-1*b1)^2+b0 (Spreadsheet12) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,000808408 R= 1,0000 Variance explained: 99,999% N=15 b2 b1 b0 Estimate -0,000802 99,89942 7,999709
Értelmezés: b0= a lövedék legnagyobb magassága, b1= az a távolság ahol a lövedék legmagasabban van, b0 – b2*b12= a lövedék kiindulási magassága.
30
1.14. ábra. A lövedékpálya illesztés grafikus reprezentációja
1.2.7. Lázgörbe A hetedik adatsor egy betegséggel együtt járó időbeli lázváltozás adatait mutatja (lázgörbe). Az adatsor elsődleges elemzése alapján transzformált Gauss-görbe alkalmazása látszik célszerűnek. A grafikus ábrázolás azonban mutatja, hogy a görbe aszimmetrikus, hirtelen emelkedő és lassan csökkenő kellene, hogy legyen. Ezért a függvényillesztéshez egy speciálisan kialakított matematikai formulát szükséges alkalmazni. A matematikai alak:
=
-
% *
0
.
A számítógépi alak: 2= 3∗ A változók: 1 = az idő (nap),
1/ 2 + 1 ∗ 1 ⌃ 0 . 2 = hőmérséklet 36 Co felett.
Az adatsort, a regressziós eljáráshoz szükséges kezdőértékeket, a nyert paraméter értékeket, a korrelációs együtthatót és az értelmezést az alábbi táblázatok tartalmazzák:
1.7. Példa
1 2 3 4 5 6 7 8 9 10 11 12 13 14
1
Adatok
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 7
2 0,1 1,8 3,5 4,6 4 2,6 1,4 0,8 0,5 0,3 0,2 0,1 0,1 0
1.7. táblázat
Kezdőértékek: b3=b2=b1=b0=1 (módosított kezdőérték). Az illesztésnél kapott paraméterek és a korrelációs együttható:
N=14 Estimate
Model: var2=b3*var1/(b2+(b1*var1)^b0) (lázgörbe4p) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,018167923 R= ,99973 Variance explained: 99,946% b3 b2 b1 b0 6,263286 1,746860 0,530529 5,226167
Értelmezés: b3/b2= a kezdő meredekség azaz, az egy nap alatti induló hőemelkedés értéke (betegség jellemző adat).
32
1.15. ábra. A lázgörbe illesztés grafikus reprezentációja
1.2.8. Napi levegő hőmérséklet A nyolcadik adatsor egy 24 órás levegőhőmérséklet változás értékeit mutatja, éjféltől-éjfélig. Az értékpárok elemzése és grafikus áttekintése jól mutatja, hogy megfelelően transzformált szinusz függvény alkalmazása a célszerű, ami a gyakorlati ismeretek alapján kézenfekvő. A matematikai alak: = sin −> + . A számítógépi alak: 2 = 3 ∗ sin 2 ∗ 1−1∗ 1 A változók: 1 = idő (óra), 2 = a hőmérséklet (Co).
+ 0.
Az adatsort, a regressziós eljáráshoz szükséges kezdőértékeket, a nyert paraméter értékeket, a korrelációs együtthatót és az értelmezéseket az alábbi táblázatok tartalmazzák:
1.8. Példa
1 2 3 4 5 6 7 8 9 10 11 12 13
0 2 4 6 8 10 12 14 16 18 20 22 24
1
Adatok
2 6,3 5 5 6,3 8,6 11,4 13,7 15 15 13,7 11,3 8,7 6,3
1.8. táblázat
Kezdőértékek: b3=b2=b1=1, b0=5 (módosított kezdőértékek). A kapott számítási eredmények:
N=13 Estimate
Model: var2=b3*Sin(b2*(var1-1*b1))+b0 (napihőingadozás) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,014721151 R= ,99996 Variance explained: 99,992% b3 b2 b1 b0 5,199216 -0,261772 -3,00344 9,997983
Értelmezés: b0–b3= a legalacsonyabb hőmérséklet (Co), b0+b3= a legmagasabb hőmérséklet (Co), b1+6= a legalacsonyabb hőmérséklet időpontja (óra), b1+6+12= a legmagasabb hőmérséklet időpontja (óra). Az illesztés grafikus reprezentációja:
34
1.16. ábra. A napi levegő hőmérséklet illesztés grafikus reprezentációja
1.2.9. Ötvözet vezetőképesség A kilencedik adatsor egy olyan modellkísérlet adatait tartalmazza, ahol két fémből készült ötvözet vezetőképességének vizsgálata történt a százalékos összetétel függvényében. Az adatsor áttanulmányozása és grafikus elemzése alapján látható, hogy két határérték mutatkozik, azonban az ezek által meghatározott tartományon kívüli értékek is köztesen jelen vannak. Ez azt jelenti, hogy egyszerű klasszikus transzformált matematikai függvénnyel az illesztés nem látszik megoldhatónak. Ebből kiindulva, valamint a határértékek jelenléte miatt két különböző tangens hiperbolikusz függvény megfelelően transzformált összege adhatja a jó regressziót. A matematikai alak: A számítógépi alak:
=
2 = 6 ∗ tanh 5 ∗
A változók: 106).
tanh
−>
+
tanh D
−A
1 − 1 ∗ 4 + 3 ∗ tanh 2 ∗ 1 + 0.
1 = a százalékos összetétel (%),
+E. 1−1∗
2 = vezetőképesség (s/m
Az adatsort, a regressziós eljáráshoz szükséges kezdőértékeket, a nyert paraméter értékeket, a korrelációs együtthatót és az értelmezéseket az alábbi táblázatok tartalmazzák: 1.9. Példa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
1
Adatok
0 0,25 5,5 10,75 16 21,25 26,5 31,75 37 42,25 47,5 52,75 58 63,25 68,5 73,75 79 84,25 89,5 94,75 100
2 2,58 2,58 2,57 2,55 2,51 2,45 2,32 2,08 1,75 1,42 1,2 1,11 1,11 1,19 1,31 1,44 1,54 1,59 1,61 1,61 1,6
1.9. táblázat
Kezdőértékek: b6=b5=b4=b3=b2=b1=b0=1 (módosított kezdőértékek). A paraméter értékek és a korrelációs együttható:
N=21 Estimate
Model: var2=b6*TanH(b5*(var1-1*b4))+b3*TanH(b2*(var1-1*b1)... (vezetőképesség) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,000998882 R= ,99992 Variance explained: 99,984% b6 b5 b4 b3 b2 b1 b0 0,334742 0,084865 67,62294 -0,814370 0,081759 36,68642 2,097139
36 I J% ? "
=legkisebb vezetőképességhez tartoÉrtelmezés: Ha b4Hb1 akkor I% ? zó %-os összetétel értéke. 1=0 helyettesítéssel kiszámítható a 0%-hoz tartozó vezetőképesség értéke. 1=100 helyettesítéssel kiszámítható a 100%-hoz tartozó vezetőképesség értéke. Az illesztés grafikus reprezentációja:
1.17. ábra. Az ötvözet vezetőképesség illesztés grafikus reprezentációja
1.2.10. Huzalfeszítés A tízedik adatsor a huzal megnyújtás függvényében jelentkező feszítőerő adatpár sorát tartalmazza, azaz a huzalszakadás folyamatát jellemzi a mért értékekkel. Az adatsor elemzése és grafikus áttanulmányozása alapján látható, hogy a kezdő és végső határérték egyforma (0), de a változás hírtelen mértékben aszimmetrikus. Ez azt jelenti, hogy klasszikus egyszerű transzformált matematikai függvénnyel az illesztés nem tűnik megoldhatónak. Így várható, hogy bonyolultabb függvény kombináció használandó, jelen esetben is a két megfelelően transzformált tangens hiperbolikusz függvény összege adhat
megbízható regressziót, azaz 1-hez közeli korrelációs együtthatót, jól értelmezhető és értékelhető paramétereket. A matematikai alak: A számítógépi alak:
=
2 = 6 ∗ tanh 5 ∗
A változók:
tanh
−>
+
tanh D
−A
1 − 1 ∗ 4 + 3 ∗ tanh 2 ∗ 1 + 0.
1 = a megnyújtás (mm),
+ E. 1−1∗
2 = a feszítő erő (N 104).
Az adatsort, a regressziós eljáráshoz szükséges kezdőértékeket, a nyert paraméter értékeket, a korrelációs együtthatót és az értelmezéseket az alábbi táblázatok tartalmazzák: 1.10. Példa
1 2 3 4 5 6 7 8 9 10 11 12
1
Adatok
0 0,31 1,62 2,92 4,2 5,54 6,85 8,15 9,46 10,77 12,08 13,38
2
0 0 0,03 0,13 0,58 1,97 3,96 5,02 5,32 5,3 0 0
1.10. táblázat
Kezdőértékek: b6=b5=b3=b2=b0=1, b4=5, b1=10 (módosított értékek). Az illesztés számítási eredményei:
N=12 Estimate
Model: var2=b6*TanH(b5*(var1-1*b4))+b3*TanH(b2*(var1-1*b1)... (feszítőerő) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,000261920 R= 1,0000 Variance explained: 100,00% b6 b5 b4 b3 b2 b1 b0 2,707871 0,591957 6,005157 -2,70603 4,378056 11,23117 -0,000973
38 I J% ? "
=a legnagyobb feszítő erőhöz Értelmezés: Ha b4Hb1 akkor z= I% ? tartozó megnyújtás (mm) értéke. 2 K = 6 ∗ tanh 5 ∗ K − 1 ∗ 4 + 3 ∗ tanh 2 ∗ K − 1 ∗ 1 + 0 = a legnagyobb feszítő erő (a szakadást létrehozó erő).
1.18. ábra. A huzalfeszítés illesztés grafikus reprezentációja
1.2.11. Radioaktív sugárintenzitás A tizenegyedik adatsor radioaktív anyag idő függvényében észlelhető sugárintenzitásának értékeit tartalmazza. Az adott értékpár sorozat áttekintése alapján könnyen megállapítható, hogy egy negatív exponenciális függvény illesztése lehet a megfelelő. Mivel az ilyen jellegű vizsgálatoknál a felezési idő meghatározása is elemi követelmény, ezért a matematikai alak megfelelő transzformálása szükséges. A matematikai alak:
=
-
1
(vagy:
=
?
-
1
).
A számítógépi alak: 2 = 2/ 1⌃ 1/ 0 (vagy 2 = 2/ 2⌃ 1/ 0 ). A változók: 1 = az idő (hónap), 2 = a sugárintenzitás (106Bq).
Az adatsort, a regressziós eljáráshoz szükséges kezdőértékeket, a nyert paraméter értékeket, a korrelációs együtthatót és az értelmezéseket az alábbi táblázatok tartalmazzák: 1.11. Példa
1 2 3 4 5 6 7 8 9 10 11
0 1 2 3 4 5 6 7 8 9 10
1
Adatok
2 8 6,3 4,92 3,88 3,09 2,42 1,89 1,5 1,18 0,92 0,73
1.11. táblázat
Kezdőértékek: b2=1, b1=b0=2, (módosított értékek). Az illesztés számított paraméterei és a korrelációs együttható:
N=11 Estimate
Model: var2=b2/b1^(var1/b0) (felezésiidő) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,002096773 R= ,99998 Variance explained: 99,996% b2 b1 b0 7,993744 2,018864 2,931419
Értelmezések: A megoldás akkor érvényes, ha 1,98
40
1.19. ábra. A radioaktív sugárintenzitás illesztés grafikus reprezentációja
1.2.12. Toboztömeg változás A tizenkettedik adatsor modellkísérletként a fenyőtoboz időbeli tömegváltozásának adatait mutatja. Az adatsor áttekintése az értékváltozásokkal kapcsolatban nem látszik elegendőnek a megfelelő függvény megkereséséhez. Mindenképpen célszerű az adatpárokból nyert pontok grafikus ábrázolása. Látható, hogy a folyamatot ábrázoló és illesztendő függvény egy kezdeti értékből indul, két inflexiós pontot is tartalmaz, maximumot is elér, majd egy határérték felé tart. A használható függvény az eddigiekben nem alkalmazott és nem ismert matematikai formulájú, és az előbbiekben felsorolt feltételeknek eleget tesz. * A matematikai alak: = sin 1− + D. A számítógépi alak: 2 = 4 ∗ sin 3 ∗ 1 − −1 ∗ 2 ∗ 1 ⌃ 1 + 0. A változók: 1 = az idő (hónap), 2 = a fenyőtoboz tömege (g). 0
Az adatsort, a regressziós eljáráshoz szükséges kezdőértékeket, a nyert paraméter értékeket, a korrelációs együtthatót és az értelmezéseket az alábbi táblázatok tartalmazzák: 1.12. Példa
1 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 7 8 9 10 11 12
1
Adatok
13 14 15 16 17 18 19 20 21 22 23 24 25
2 0,25 1,32 3,14 5,77 9,49 13,27 17,06 20,77 23,23 24,74 24,96 24,31
13 14 15 16 17 18 19 20 21 22 23 24 25
22,86 21,25 19,58 17,87 16,57 15,41 14,63 14,05 13,6 13,34 13,16 13,04 12,93
1.12. táblázat
Kezdőértékek: b4=b3=b2=b1=b0=2. A paraméter értékek és a korrelációs együttható:
N=25 Estimate
Model: var2=b4*Sin(b3*(1-Exp(-1*(b2*var1)^b1)))+b0 (fenyőtoboztömegváltozás) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,084630943 R= ,99996 Variance explained: 99,993% b4 b3 b2 b1 b0 24,97139 2,601332 0,089950 2,301996 0,032162
Értelmezések: b4+b0 = a legnagyobb tömeg (g) akkor, ha b3>π/2, 1/b2 = a legnagyobb tömeghez tartozó időpont (hónap) közelítő értéke, 0 + 4 sin 3 = a végső tömeg (g), b1= a változás sebességét befolyásoló tényező. Általánosságban: b4+b0 = az elért legnagyobb 2 érték (lokális maximum) akkor, ha b3>π/2,
42 0 + 4 sin 3 = a végső 2 érték (határérték), " ? L ! = ! ! − ! 2, ahol x az a 1 érték, amelyhez a legna" ? L M gyobb (b4+b0) 2 érték tartozik. PQ PQ$,$$" A következő ! O = − ! 2 formula xv értéke a végső 2 " értéktől (a határértéktől) 1 %-nál kisebb értékkel való eltérés tartományának kezdete. Az illesztés grafikus reprezentációja:
1.20. ábra. A toboztömeg változás illesztés grafikus reprezentációja
1.2.13. I. és IV. fatermési osztály vizsgálata akác esetén Az alábbiakban néhány olyan példa kerül bemutatásra, melyek esetében az adatsor nem modellezett. Az Erdészettudományi Közlemények 2011.1. évfolyam 1. számából [9] származnak. Rédei K., Csiha I. et al.: Nyírségi akácosok táji fatermési táblája című cikkből. A fatermési táblából az I. és IV-es fatermési osztály adatait vizsgáljuk. Minkét fatermési osztály esetében a változók az alábbiakat jelölik: • 1 = az idő (év), • 2 = átlagos magasság (m),
3 =átlagos mellmagassági átmérő (cm), 4 = fatérfogat (m3), 5= átlagnövedék (m3/év), 6 = folyónövedék (m3/év). A 2, 3 és 4 értékek az egész állományra vonatkoztatottak, 5 és a 6 pedig az összes fatermésre. Az alábbi táblázatok tartalmazzák a felhasznált adatsorokat. • • • •
1 2 3 4 5 6 7 8 9
1 5,000 10,000 15,000 20,000 25,000 30,000 35,000 40,000 45,000
2 7,200 13,100 17,600 20,800 23,100 24,700 25,800 26,600 27,300
I. fatermési osztály 3 5,200 10,200 15,300 19,400 22,800 25,600 28,000 30,100 32,100
4 41,000 121,000 169,000 217,000 259,000 294,000 323,000 350,000 378,000
5 8,300 12,900 14,300 14,500 14,200 13,600 12,900 12,300 11,700
6 0,000 17,500 17,000 15,400 13,000 10,600 8,700 7,600 7,500
5 4,300 6,400 7,100 7,200 7,100 6,800 6,400 6,100 5,800
6 0,000 8,500 8,400 7,600 6,500 5,300 4,300 3,800 3,800
1.13. táblázat
1 2 3 4 5 6 7 8 9
1 5,000 10,000 15,000 20,000 25,000 30,000 35,000 40,000 45,000
2 4,900 8,900 11,900 14,200 15,700 16,800 17,600 18,100 18,600
IV. fatermési osztály 3 3,400 6,700 10,300 13,200 15,600 17,500 19,100 20,600 22,000
4 22,000 62,000 89,000 114,000 136,000 154,000 169,000 183,000 198,000
1.14. táblázat
Az alkalmazott regressziós függvény 2, v 3 és változó 1 (idő) mint független változó esetén az alábbi:
4 mint függő
44 A matematikai alak: = A számítógépes alak:
1−
R = 3∗ 1−
−1 ∗
A 5 és 6 mint függő változó zott modell a következő: A matematikai alak: = sin 1− A számítógépi alak: R = 4 ∗ sin
3∗ 1−
+
*
(Awrami-görbe). 2∗
1 ⌃ 1
+ 0.
1 (idő) függvényében az alkalma0
−1 ∗
+ D. 2∗
1 ⌃ 1
+ 0.
A kezdőértékek mind a két fatermési osztály esetében 2=D 1), 3=D 1) illetve 4=D 1) illesztéseinél b3=b2=b1=b0=1. A 5 = D( 1) illetve 6 = D( 1) regressziójánál az I. fatermési osztálynál b4=b0=4, míg b3=b2=b1=1, a IV. fatermési osztály adatsorának használatakor b4=b3=b2=b1=1, b0=2. Az alábbi táblázatok az illesztés során kapott paraméter értékeket és a korrelációs együtthatókat tartalmazzák, az ábrák grafikusan reprezentálják az eredményeket.
1.2.13.1. . Az I. fatermési osztály eredményei
N=9 Estimate
Model: var2=b3*(1-exp(-1*((b2*var1)^b1)))+b0 (akác1) Dep. var: VAR2 Loss: (OBS-PRED)**2 Final loss: ,017115114 R= ,99998 Variance explained: 99,995% b3 b2 b1 b0 28,75369 0,064726 1,066644 -0,271147
1.21. ábra. Az átlagos magasság az idő függvényében
46
Model: var3=b3*(1-exp(-1*((b2*var1)^b1)))+b0 (akác1) Dep. var: VAR3 Loss: (OBS-PRED)**2 Final loss: ,179175448 R= ,99987 Variance explained: 99,974% N=9 b3 b2 b1 b0 Estimate 40,70542 0,034279 1,080118 -0,519347
1.22. ábra. Az átlagos mellmagassági átmérő az idő függvényében
N=9 Estimate
Model: var4=b3*(1-exp(-1*((b2*var1)^b1)))+b0 (akác1) Dep. var: VAR4 Loss: (OBS-PRED)**2 Final loss: 43,033109170 R= ,99979 Variance explained: 99,957% b3 b2 b1 b0 1106,402 0,009367 0,607590 -117,179
1.23. ábra. A fatérfogat az idő függvényében
48
N=9 Estimate
Model: var5=b4*Sin(b3*(1-Exp(-1*(b2*var1)^b1)))+b0 (akác1) Dep. var: VAR5 Loss: (OBS-PRED)**2 Final loss: ,004766127 R= ,99992 Variance explained: 99,984% b4 b3 b2 b1 b0 25,39779 2,405090 0,058460 0,668569 -10,8660
1.24. ábra. Az átlagnövedék az idő függvényében
Model: var6=b4*Sin(b3*(1-Exp(-1*(b2*var1)^b1)))+b0 (akác1) Dep. var: VAR6 Loss: (OBS-PRED)**2 Final loss: ,989349265 R= ,99803 Variance explained: 99,607% N=9 b4 b3 b2 b1 b0 Estimate 359,1401 1,854744 0,245237 0,573772 -341,041
1.25. ábra. A folyónövedék az idő függvényében
50 1.2.13.2. A IV. fatermési osztály eredményei Model: var2=b3*(1-exp(-1*((b2*var1)^b1)))+b0 (akác4) Dep. var: VAR2 Loss: (OBS-PRED)**2 Final loss: ,014024950 R= ,99996 Variance explained: 99,992% N=9 b3 b2 b1 b0 Estimate 19,37206 0,063955 1,083445 0,004885
1.26. ábra. Az átlagos magasság az idő függvényében.
Model: var3=b3*(1-exp(-1*((b2*var1)^b1)))+b0 (akác4) Dep. var: VAR3 Loss: (OBS-PRED)**2 Final loss: ,159954759 R= ,99976 Variance explained: 99,951% N=9 b3 b2 b1 b0 Estimate 26,98114 0,035530 1,136324 -0,220820
1.27. ábra. Az átlagos mellmagassági átmérő az idő függvényében
52
N=9 Estimate
Model: var4=b3*(1-exp(-1*((b2*var1)^b1)))+b0 (akác4) Dep. var: VAR4 Loss: (OBS-PRED)**2 Final loss: 6,158399609 R= ,99989 Variance explained: 99,978% b3 b2 b1 b0 501,3869 0,012803 0,651582 -54,7448
1.28. ábra. A fatérfogat az idő függvényében
N=9 Estimate
Model: var5=b4*Sin(b3*(1-Exp(-1*(b2*var1)^b1)))+b0 (akác4) Dep. var: VAR5 Loss: (OBS-PRED)**2 Final loss: ,005122316 R= ,99961 Variance explained: 99,923% b4 b3 b2 b1 b0 9,945573 2,534462 0,050328 0,721575 -2,71371
1.29. ábra. Az átlagnövedék az idő függvényében
54
N=9 Estimate
Model: var6=b4*Sin(b3*(1-Exp(-1*(b2*var1)^b1)))+b0 (akác4) Dep. var: VAR6 Loss: (OBS-PRED)**2 Final loss: ,274827459 R= ,99771 Variance explained: 99,543% b4 b3 b2 b1 b0 121,3812 1,906048 0,191752 0,633423 -112,506
1.30. ábra. A folyónövedék az idő függvényében
A fenti eredmények jól igazolják, hogy az alkalmazott regressziós modellek a szakirodalomból származó adatsorokra jól illeszthetők (r >0,9977). A kezdőértékek meghatározása lényegesen egyszerűbb mint a korábban felsorolt növekedési függvények esetén, a paraméterek a már említettek szerint értelmezhetők.
1.2.14. Hat fatermési osztály összefoglaló vizsgálata akác esetén Az alábbi példában a hat fatermési osztály teljes állományra vonatkozó átlagos famagasság adatait elemezzük az idő függvényében. A telítési függvény kerül felhasználásra, 1= az idő (év), R , k=2,3,4,5,6,7 a hat fatermési osztály átlagos famagassági adatsorai (m). Összesített táblázat a hat fatermési osztály átlagos famagasságára:
1 2 3 4 5 6 7 8 9
5 10 15 20 25 30 35 40 45
1
Átlagos famagasság az idő függvényében 2 7,2 13,1 17,6 20,8 23,1 24,7 25,8 26,6 27,3
3 6,5 11,7 15,7 18,6 20,7 22,1 23 23,7 24,4
4 5,7 10,3 13,8 16,4 18,2 19,4 20,3 20,9 21,5
5 4,9 8,9 11,9 14,2 15,7 16,8 17,6 18,1 18,6
6 4,1 7,5 10,1 12 13,3 14,2 14,8 15,3 15,7
7 3,3 6,1 8,2 9,7 10,8 11,6 12,1 12,5 12,8
1.15. táblázat
A kezdőértékek b3=b2=b1=b0=1. Az illesztés eredményei:
N=9 Estimate
Model: var2=b3*(1-exp(-1*((b2*var1)^b1)))+b0 (akac1-6magassag) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,017115114 R= ,99998 Variance explained: 99,995% b3 b2 b1 b0 28,75366 0,064726 1,066646 -0,271132
N=9 Estimate
Model: var3=b3*(1-exp(-1*((b2*var1)^b1)))+b0 (akac1-6magassag) Dep. var: Var3 Loss: (OBS-PRED)**2 Final loss: ,040582999 R= ,99993 Variance explained: 99,986% b3 b2 b1 b0 25,03914 0,064240 1,100209 0,244968
56
N=9 Estimate
Model: var4=b3*(1-exp(-1*((b2*var1)^b1)))+b0 (akac1-6magassag) Dep. var: Var4 Loss: (OBS-PRED)**2 Final loss: ,023664841 R= ,99995 Variance explained: 99,990% b3 b2 b1 b0 22,34267 0,064221 1,082361 0,021598
N=9 Estimate
Model: var5=b3*(1-exp(-1*((b2*var1)^b1)))+b0 (akac1-6magassag) Dep. var: Var5 Loss: (OBS-PRED)**2 Final loss: ,014024950 R= ,99996 Variance explained: 99,992% b3 b2 b1 b0 19,37206 0,063955 1,083445 0,004885
N=9 Estimate
Model: var6=b3*(1-exp(-1*((b2*var1)^b1)))+b0 (akac1-6magassag) Dep. var: Var6 Loss: (OBS-PRED)**2 Final loss: ,013042198 R= ,99995 Variance explained: 99,990% b3 b2 b1 b0 16,49070 0,065040 1,077159 -0,164301
N=9 Estimate
Model: var7=b3*(1-exp(-1*((b2*var1)^b1)))+b0 (akac1-6magassag) Dep. var: Var7 Loss: (OBS-PRED)**2 Final loss: ,001835970 R= ,99999 Variance explained: 99,998% b3 b2 b1 b0 13,61890 0,064198 1,063971 -0,216105
Az adatokból jól látható, b3+b0-ból pedig számítható a magasság határértéke, melyet jelentősen nem lép már túl az átlagmagasság. Az értékek csökkenése jól jellemzi az egyes fatermési osztályokat. Az alábbi összesített ábra is ezt támasztja alá. Az átlagos famagassághoz hasonlóan az összes fatermés átlagnövedéke is vizsgálható, az illesztésnél itt a már korábban bemutatott összetett függvény * 0 alkalmazása célszerű, nevezetesen az = sin 1− + D függvényé.
1.31. ábra
A hat fatermési osztály adatait az alábbi táblázat tartalmazza, idő (év) R , k=2,3,4,5,6,7 a hat osztály átlagnövedéki adatsora:
1 2 3 4 5 6 7 8 9
5 10 15 20 25 30 35 40 45
1
2 8,3 12,9 14,3 14,5 14,2 13,6 12,9 12,3 11,7
Összes fatermés átlagnövedéke 3 6,8 10,5 11,6 11,8 11,6 11,1 10,5 10 9,5
4 5,5 8,3 9,2 9,4 9,2 8,8 8,4 7,9 7,6
1.16. táblázat
5 4,3 6,4 7,1 7,2 7,1 6,8 6,4 6,1 5,8
6 3,3 4,7 5,2 5,3 5,2 5 4,7 4,4 4,3
1= az
7 2,4 3,3 3,6 3,7 3,6 3,5 3,3 3,1 3
58 A kezdőértékeket az alábbi táblázat mutatja: Fatermési osztály I. II. III. IV. V. VI.
b4
b3
b2
b1
b0
4 3 4 4 1 1
1 1 1 1 1 1
1 1 1 1 1 1
1 1 1 1 1 1
4 3 4 4 4 3,5
1.17. táblázat
Az illesztés eredményei, a paraméterek és korrelációs együtthatók: Model: var2=b4*Sin(b3*(1-Exp(-1*(b2*var1)^b1)))+b0 (átlagnövedék1-6) Dep. var: Var2 Loss: (OBS-PRED)**2 Final loss: ,004766129 R= ,99992 Variance explained: 99,984% N=9 b4 b3 b2 b1 b0 Estimate 25,39714 2,405062 0,058462 0,668588 -10,8654
Model: var3=b4*Sin(b3*(1-Exp(-1*(b2*var1)^b1)))+b0 (átlagnövedék1-6) Dep. var: Var3 Loss: (OBS-PRED)**2 Final loss: ,009135621 R= ,99976 Variance explained: 99,953% N=9 b4 b3 b2 b1 b0 Estimate 22,13627 2,471521 0,053887 0,621435 -10,3145
Model: var4=b4*Sin(b3*(1-Exp(-1*(b2*var1)^b1)))+b0 (átlagnövedék1-6) Dep. var: Var4 Loss: (OBS-PRED)**2 Final loss: ,007986960 R= ,99965 Variance explained: 99,931% N=9 b4 b3 b2 b1 b0 Estimate 12,77281 2,474232 0,053316 0,748105 -3,37498
Model: var5=b4*Sin(b3*(1-Exp(-1*(b2*var1)^b1)))+b0 (átlagnövedék1-6) Dep. var: Var5 Loss: (OBS-PRED)**2 Final loss: ,005122316 R= ,99961 Variance explained: 99,923% N=9 b4 b3 b2 b1 b0 Estimate 9,945070 2,534462 0,050328 0,721599 -2,71321
Model: var6=b4*Sin(b3*(1-Exp(-1*(b2*var1)^b1)))+b0 (átlagnövedék1-6) Dep. var: Var6 Loss: (OBS-PRED)**2 Final loss: ,010341200 R= ,99836 Variance explained: 99,672% N=9 b4 b3 b2 b1 b0 Estimate 4,950765 2,555106 0,050117 0,905325 0,366913
Model: var7=b4*Sin(b3*(1-Exp(-1*(b2*var1)^b1)))+b0 (átlagnövedék1-6) Dep. var: Var7 Loss: (OBS-PRED)**2 Final loss: ,003941657 R= ,99850 Variance explained: 99,700% N=9 b4 b3 b2 b1 b0 Estimate 3,597826 2,673953 0,044811 0,799428 0,090074
A korrelációs együtthatók itt is meghaladják a 0,998 értékét, ami szoros illeszkedésre utal. A b4+b0 paraméterekből megkapjuk a maximális R , átlagnövedék értéket. Számítható továbbá az a határ 1-re, az időre, ami a végső R értéktől (a határértéktől) 1 %-nál kisebb értékkel való eltérés tartományának kezdete. Az alábbi összesített ábra az átlagos famagasság esetén is jól mutatja (föntről lefelé, egytől hatig) az egyes fatermési osztályok közötti eltérést az átlagnövedékre. A bemutatott példák alapján látható, hogy a két alkalmazott modell felhasználásával az összehasonlítás lehetősége adott, mind számszerűsített formában, mind pedig vizuálisan.
60
1.32. ábra
1.3. Összefoglaló az alkalmazott modellekből Az alábbi ábrák az egyes függvények lehetséges görbealakjait mutatják.
1.33. ábra.
=
1.34. ábra.
1−
=
.
+
-
& 1/
6
+
(Awrami-görbe)
(Gauss-görbe)
62
1.35. ábra.
1.36. ábra.
-
=
tanh
−>
= . & 1/ + és = ! függvények
+
−>
+
=
1.37. ábra.
1.38. ábra.
=
% *
0
−
?
+>
(d pozitív nem egész érték)
64
1.39. ábra.
1.40. ábra.
=
=
sin
tanh
−>
+
−>
és
=
-
+ tanh D
1
függvények
−A
+E
1.41. ábra.
=
sin
1−
*
0
+D
A fenti összefoglalóban nyilván nincs lehetőség arra, hogy a paraméterek összes lehetséges változtatása révén keletkező ábra bemutatásra kerüljön, inkább néhány jellegzetes eset került kiválasztásra.
1.4. Összefüggéseket leíró függvények keresése adathalmazok vonatkozásában
1.4.1. Elvi alapok Tekintettel arra, hogy a számítástechnika és az alkalmazott különféle új programok ma már rendkívül sok lehetőséget adnak regressziós eljárások végrehajtására és elemzésére célszerű ezen lehetőségek kihasználása, mert módot biztosítanak a gyors ismétlésre és esetleges módosításra, különösebb időigény nélkül. Vizuálisan „felhőszerű” adathalmazok esetében éppen ezen okok miatt van lehetőség arra, hogy többféle függvény regressziós alkalmazását hajtsuk
66 végre, és összehasonlítást tegyünk a megfelelőséget értékelve. Természetesen ilyen esetben az értékelés számszerű adata a korrelációs együttható (R), mely matematikai számítás szempontjából a legtöbb előzményt tartalmazza. Mindezeken túlmenően alapvető értékelési szempont, hogy az alkalmazott függvény paraméterei megfelelően értelmezhetők legyenek, a vizsgált tartományon belül és azon túl is, bonyolult számítási eljárás nélkül. Tehát a végső értékelés az említett két szempont együttes alkalmazását jelenti, nem mellőzve a grafikus gyakorlati ábrázolást sem.
1.4.2. Adathalmaz választás A fentebb felsoroltaknak megfelelően olyan adathalmaz választása célszerű, melyben egyváltozós rendszert figyelembe véve, az adatpárok száma 10nél mindenképpen több, és az általuk meghatározott pontok síkbeli grafikus elhelyezkedése nem vonalszerű. Ilyen adathalmazt ad meg az a virtuális kísérlet, melyben egyetlen gyümölcsfáról az érésközel egyidőben különböző térfogatú egyedeket szedtek le, és meghatározták minden egyed cukorkoncentrációját. Így tehát az adathalmazt leíró függvény elvi alakja: 2=D 1 , ahol 1 a gyümölcsegyed térfogata, 2 az egyed cukorkoncentrációja. Az 50 adatpárt tartalmazó táblázatban az egyedek térfogata ( 1) cm3-ben, a cukorkoncentráció ( 2) ‰-ben került feltüntetésre. Az adatpároknak megfelelő síkbeli pontok elhelyezkedését egy grafikus táblázat mutatja. (Rövidítés: cukorkoncentráció=cukkon) Adatpárok táblázata: sorszám
TUVW
TUVX
sorszám
TUVW
TUVX
1 2 3 4 5 6 7 8 9 10 11 12 13 14
4,000 5,500 5,600 7,000 7,300 8,000 8,500 9,100 9,900 10,400 11,300 12,300 12,500 13,100
4,600 4,500 6,500 6,700 8,100 6,200 7,200 9,700 9,500 10,100 8,400 11,000 10,200 9,100
26 27 28 29 30 31 32 33 34 35 36 37 38 39
18,700 19,100 19,300 19,400 19,500 20,100 20,700 21,000 22,100 21,400 22,300 22,700 23,500 23,600
9,600 8,900 11,000 10,100 8,600 9,300 10,600 9,100 9,900 8,600 8,200 9,300 9,900 8,700
15 16 17 18 19 20 21 22 23 24 25
13,900 14,400 14,600 15,300 15,700 15,200 16,500 17,100 17,200 17,900 18,000
9,400 8,800 10,300 11,400 9,800 11,600 8,800 11,000 8,900 8,700 10,700
40 41 42 43 44 45 46 47 48 49 50
1.18. táblázat
1.42. ábra. Grafikus táblázat
24,500 25,700 25,800 26,500 27,000 27,400 27,800 28,300 28,800 29,100 29,800
9,200 8,500 9,700 10,100 9,200 8,700 9,400 8,500 9,700 8,700 9,400
68 1.4.3. Regressziós kísérletsorozat és elemzés Minden következő regressziós eljárás esetén a „Kvázi – Newton” elven alapuló a ma szabványos, statisztikai-számítógépi program alkalmazása történt meg, az összehasonlíthatóság érdekében. 1.4.3.1. Egyenes illesztése Első függvényillesztésként az egyenes illesztése kerül sorra. A függvény alakja: 2= 1∗ 1 + 0. Kezdőértékek: 0 = 1 = 1. A nyert paraméterek: 1 = 0,08305, 0 = 7,5965, R = 0,39975. Elemzés: A függvény csak az adattartományon belül értelmezhető, határértékei (±) végtelenek. A 0 érték egy közelítő átlagot ad meg a 2-re, a 1 pedig bizonytalan növekedést jelez. Az \ értéke jóval kisebb mint 0,75, így folyamat ill. összefüggés jellemzésre nem alkalmas. 1.4.3.2. Gauss-függvény illesztése Második függvényillesztésként a Gauss-függvény illesztése kerül sorra. A függvény alakja: 2 = 2/exp 1 ∗ 1 − 1 ∗ 0 ⌃2 . Kezdőértékek: 1 = 2 = 1, 0 = 15. A nyert paraméterek: 2 = 10,0156, 1 = −0,04430, 0 = 19,7531, R = 0,70225. Elemzés: A függvény csak az adattartományon belül értelmezhető, mert határértékei 1 → ∞ ill. 1 → −∞ mellett 2 = 0 nagyságuak. A 0 érték megadja a közelítőleg várható legnagyobb koncentrációhoz, a 2 –höz tartozó térfogatértéket, 1 a függvény relatív szélességtartományát befolyásoló tényező. A görbealak szimmetrikus, az \ érték kisebb mint 0,75, így folyamat ill. összefüggés meghatározására nem tekinthető alkalmasnak. 1.4.3.3. Szinus-függvény illesztése Harmadik függvényillesztési eljárásként egy transzformált szinuszfüggvény került alkalmazásra. A függvény alakja: 2 = 3 ∗ sin 2 ∗ 1 − 1 ∗ 1 + 0. Kezdőértékek: 0 = 1 = 3 = 1, 2 = 0,1. A nyert paraméterek: 3 = 131,32, 2 = 0,016415, 1 = −75,9425, 0 = −121,30, \ = 0,72502.
Elemzés: A függvény csak az adattartományon belül értelmezhető, mert határértékei nincsenek. A 3 + 0 megadja a közelítőleg várható legnagyobb 2, azaz koncentráció értéket. A legnagyobb 2 értékhez tartozó 1, azaz térfogatérték, pedig az alábbi képletből számítható ki: 1=
M
?∙ ?
+ 1.
A görbealak szimmetrikus, az \ érték kisebb mint 0,75, így folyamat ill. öszszefüggés meghatározására ezen függvény sem tekinthető alkalmasnak. 1.4.3.4. Másodfokú polinom illesztése Negyedik függvényillesztési módként másodfokú polinom (parabola) illesztése kerül sorra. A függvény alakja: 2= 2∗ 1 − 1 ∗ 1 ⌃2 + 0. Kezdőértékek: 2 = −1, 1 = 15, 0 = 1. A nyert paraméterek: 2 = −0,017635, 1 = 19,745, 0 = 10,016, \ = 0,72551. Elemzés: A függvény csak az adattartományon belül értelmezhető, mert határértéke (+) vagy (–) végtelen. A 0 paraméter megadja a közelítőleg várható legnagyobb 2 értéket, a 1 paraméter pedig ennek 1-en értelmezett helyét. Tehát nyerjük a legnagyobb koncentráció közelítő nagyságát, és az ehhez tartozó térfogatot. 2 a függvény relatív szélességtartományát befolyásoló tényező. A görbealak szimmetrikus, az \ értéke kisebb mint 0,75, így folyamat ill. összefüggés meghatározásra ezen függvény sem tekinthető alkalmasnak. A fentebbiekben felsorolt négy regresszióra példaként bemutatott függvény grafikus ábrái az alábbiakban láthatók:
70 Model: var2=b1*var1+b0 y=(,08304636909086)*x+(7,5964665497012) 12 11 10 9 8 7 6 5 4 2
4
6
8
10
12
14
16
18
20
22
VAR1
1.43. ábra. Egyenes
1.44. ábra. Gauss-függvény
24
26
28
30
32
1.45. ábra. Szinusz-függvény
1.46. ábra. Másodfokú polinom
72 A grafikonokat áttekintve összefoglalóan megállapítható, hogy a bemutatott négy függvény nem alkalmas magasabb követelményeket és következtetési lehetőséget megadó regressziós eljárások elvégzésére. 1.4.3.5. Bertalanffy-függvény illesztése Ötödik függvényillesztésként a Bertalanffy-függvény alkalmazására került sor. A függvény alakja: 2 = 2 ∗ 1 − 1 ∗ 1 ∗ exp −1 ∗ 0 ∗ 1 . Kezdőértékek: 2 = 1 = 0 = 1. A nyert paraméterek: 2 = 9,58875, 1 = 2,40231, 0 = 0,33955, \ = 0,76150. Elemzés: A függvény regressziós alkalmazás szempontjából csak a pozitív 1 tartományon belül értelmezhető, és itt határértéke 2, a negatív tartományban határértéke (–) végtelen. 1 = 0 mellett a 2 határértéke= 2 ∗ " " 1 − 1 . A függvény zérus helye 2 = 0 mellett 1=− $∗ ! ". A 2 = 2 határértéket 1% hibahatár mellett megközelítő 1 érték pedig " $,$" 1 = − $ ∗ ! " . Tehát megkapjuk a legnagyobb koncentráció közelítő nagyságát, és az ehhez tartozó térfogatot 1%-os pontossággal, valamint a koncentráció kezdőértékét, amely a jelen esetben negatív, így nem értelmezhető. A korrelációs együttható 0,75 < \ < 0,80. A felsoroltak miatt a függvény folyamat ill. összefüggés meghatározására csak kivételes esetekben tekinthető alkalmasnak. 1.4.3.6. Tangens hiperbolikusz függvény illesztése Hatodik függvényillesztésként a transzformált tangens hiperbolikusz függvény került alkalmazásra. A függvény alakja: 2 = 3 ∗ tanh 2 ∗ 1−1∗ 1 + 0. Kezdőértékek: 3 = 2 = 1 = 1, 0 = 7. A nyert paraméterek: 3 = 2,43576, 2 = 0,46496, 1 = 7,45630, 7,11932, \ = 0,79281.
0=
Elemzés: A függvény határértéke a (+) végtelenben 0 + 3 a (–) végtelenben 0 − 3. Az értelmezés a regressziós eljárások gyakorlati szempontjából 0 ≤ 1 ≤ ∞ tartományra szükséges. A 2 = 0 értékhez tartozó 1 – ha " $ van ilyen – a következő képlettel számolható ki: 1 = 1 − ? ∗ c !E L. A 0 + 3 határértéket 1% pontossággal megközelítő 2 értékhez tartozó 1 pedig az alábbi képlettel számolható ki:
1= 1+
"
?
∗
c !E
$,dd∗ L $,$"∗ $ L
.
A 1 = 0 értékhez tartozó 2 kezdőérték a 2 = 3 ∗ tanh 2 ∗ −1 ∗ 1 + 0 formulával érhető el. A 2 változási tartománya 2 ∗ 3. Tehát megkapjuk ezen alkalmazásnál a legnagyobb koncentráció közelítő nagyságát, és az ehhez tartozó térfogatot 1%-os pontossággal, valamint a koncentráció kezdőértékét. A korrelációs együttható 0,75 < \ < 0,80, a szereplő paraméterek értelmezése kiterjedt, így a függvény folyamatok ill. összefüggések meghatározására megfelelő körültekintéssel alkalmazásra javasolható. 1.4.3.7. Awrami telítési függvény illesztése A hetedik függvényillesztési eljárást az Awrami telítési függvény részben transzformált alakjára alkalmazzuk. A függvény alakja: 2 = 3 ∗ 1 − exp −1 ∗ 2∗ 1 ⌃ 1 + 0. Kezdőértékek: 3 = 2 = 1 = 0 = 1. A nyert paraméterek: 3 = 4,89305, 2 = 0,12365, 1 = 4,72241, 0 = 4,65484, \ = 0,79577.
Elemzés: A függvény értelmezési tartománya 0 ≤ 1 ≤ ∞, gyakorlati szempontból a megadott adattartományon túl is alkalmazható következtetések levonására. Határértéke 3 + 0 a (+) végtelenben. A 2 változási tartománya 3. A 2 = 3 + 0 határértéket 1% pontossággal megközelítő 1 értéket a következő képlettel számíthatjuk ki: " ln 1 = ∗ ln ln 100 − ln 2. "
A 1 = 0 értékhez tartozó 2 kezdőértéket a 0 paraméter adja meg. Ezen függvény regressziós alkalmazásánál a felsoroltak szerint kapjuk a legnagyobb koncentráció közelítő nagyságát, és az ehhez tartozó térfogatot 1%os pontossággal, valamint a koncentráció kezdőértékét. A korrelációs együttható 0,75 < \ < 0,80, a szereplő paraméterek kiterjedten értelmezhetők, így a függvény folyamatok ill. összefüggések meghatározására megfelelő körültekintéssel alkalmazásra javasolható. 1.4.3.8. Láncgörbe illesztése Nyolcadik függvényillesztési eljárásként az ú.n. „lázgörbe” került alkalmazásra. A függvény alakja: 2= 3∗ 1/ 2 + 1 ∗ Kezdőértékek: 3 = 2 = 1 = 0 = 1. A nyert paraméterek: 3 = 8,24455, 2 = 6,68568, 1,90901, \ = 0,79631.
1 ⌃ 0 .
1 = 0,168229, 0 =
74 Elemzés: A függvény értelmezési tartománya 0 ≤ 1 ≤ ∞, kezdőértéke 1 = 0 helyen 2 = 0, határértéke ( 1 = ∞) ugyancsak 2 = 0. Paraméterei az eddigiekben felsoroltaknak megfelelően nem értelmezhetők. A grafikus ábrázolás egy maximumot mutat, jó illeszkedés mellett, amit az \ = 0,79631 értékű korrelációs együttható is igazol. Mindez arra utal, hogy hasonló alakot mutató, de értelmezhető paramétereket tartalmazó függvény keresése célszerű. A „lázgörbe” folyamatok ill. összefüggések karakterisztikus meghatározására nem javasolható. Az utóbbiakban felsorolt négy regresszióra alkalmazott függvény teljes grafikus ábrái az alábbiakban láthatók:
1.47. ábra. Bertalanffy-függvény
1.48. ábra. Tangenshiperbolikusz függvény
1.49. ábra. Awrami telítési függvény
76
1.50. ábra. Lázgörbe
A grafikonokat áttekintve összefoglalva megállapítható, hogy a bemutatott ötödik, hatodik és hetedik függvény megfelelő körültekintéssel alkalmazható regressziós eljárásokban folyamat ill. összefüggés meghatározására. 1.4.3.9. Harmadfokú polinom illesztése Kilencedik függvényillesztésként a harmadfokú polinom illesztésére került sor. A függvény alakja: 2= 3∗ 1^3 + 2 ∗ 1^2 + 1 ∗ 1 + 0. Kezdőértékek: 3 = 2 = 1 = 0 = 1. A nyert paraméterek: 3 = 0,001678, 2 = −0,104527, 1 = 2,027154, 0 = −2,54006, \ = 0,81311. Elemzés: A függvény értelmezési tartománya −∞ ≤ 1 ≤ +∞. Határértéke 1 → −∞ esetén 2 → −∞, 1 → ∞ esetén 2 → ∞. Paraméterei az eddigiekben felsoroltaknak megfelelően nem értelmezhetők. A grafikus ábrázolás egy maximumot és egy minimumot mutat, jó illeszkedés mellett, amit az \ = 0,81311 értékű korrelációs együttható is igazol. Mindez arra utal, hogy hasonló alakot mutató, de értelmezhető paramétereket tartalmazó függ-
vény keresése célszerű. A harmadfokú polinom folyamatok ill. összefüggések karakterisztikus meghatározására nem alkalmas. 1.4.3.10. „Szinusz-Awrami” új függvény illesztése Tizedik függvényillesztésként a „szinusz-Awrami” új függvény alkalmazása történt meg. A függvény alakja:
2 = 4 ∗ sin 3 ∗ 1 − exp −1 ∗
2∗
1 ^ 1
+ 0.
Kezdőértékek: 4 = 3 = 2 = 1 = 1, 0 = 7. A nyert paraméterek: 4 = 6,87829, 3 = 2,11021, 2 = 0,08239, 1 = 2,19063, 0 = 3,24268, \ = 0,82108. Elemzés: A függvény értelmezési tartománya 0 ≤ 1 ≤ ∞, gyakorlati szempontból a megadott adattartományon túl is alkalmazható következtetések levonására. A 1 = 0 értékhez tartozó 2 kezdőértéket a 0 paraméter adja meg. A legnagyobb 2 értéket kapjuk a 2g- = 0 + 4 képlettel, M M 3 H ? esetében. Ha 3 < ? , akkor a 0 + 4 határérték, és nincs maximális 1 a következő módon számolható 2 érték. A 2g- értékhez tartozó " ?∗ L M ki: ln 1 = " ln ln ?∗ L M − ln 2. A 2 határértéke 3 < ? esetén: 2h-iák = 0 + 4 ∗ sin 3. Ezt a határértéket 1% pontossággal megközelítő 1 értéket pedig a következő képlettel számíthatjuk ki: ln 1= " ln ln 100 − ln 2. A 2 változási tartománya 4. Ezen függvény reg" ressziós alkalmazásánál a felsoroltak szerint tehát megkapjuk a maximális koncentráció közelítő nagyságát, és az ehhez tartozó térfogatértéket, a koncentráció határértékét, és az ehhez tartozó térfogatot 1%-os pontossággal, a koncentráció változási tartományát megadó adatot, valamint a koncentráció elvi kezdőértékét. A korrelációs együttható \ = 0,82108 \ H 0,8 , a szereplő paraméterek kiterjedten értelmezhetők, így a függvény folyamatok ill. öszszefüggések meghatározására elsőfokúan alkalmas. Az utóbbiakban felsorolt két regresszióra alkalmazott függvény grafikus ábrái az alábbiakban láthatók:
78
1.51. ábra. Harmadfokú polinom
1.52. ábra. Szinusz-Awrami függvény
Összefoglalva a két grafikont áttekintve megállapítható, hogy a bemutatott kilencedik függvény ugyan vizuálisan jól illeszkedik a ponthalmazra, de paraméterei nem szolgáltatnak értékelhető ismereteket. Ezzel szemben a tizedik függvény sok értékelhető és értelmezhető adatot ad meg, még jobb illeszkedés mellett, tehát regressziós alkalmazása az összes felsoroltak közül a legcélszerűbb és legmegbízhatóbb. 1.4.3.11. Összefoglaló táblázatok A továbbiakban egy összefoglaló táblázatban tekinthetők meg a különböző függvények regressziós alkalmazásával nyert értékek. A használt rövidítések: 2l = a koncentráció kezdőértéke (‰), 2g = a maximális koncentráció értéke (‰), 1gh = a maximális koncentrációhoz tartozó térfogat (cm3), 2P = a koncentráció határértéke (‰), 1Ph = a koncentráció határértékét 1% pontossággal megközelítő térfogatérték (cm3), 2Oi = a koncentrációváltozás tartománya (‰), \ = a nyert korrelációs együttható értéke. Az alkalmazott függ- TUVXm TUVXn TUVWno TUVXp TUVWpo TUVXTq ‰ ‰ cm3 ‰ cm3 ‰ vény
Egyenes Gauss-függvény Szinusz-függvény Másodfokú polinom Bertalanffy függvény Tangenshiperbolikusz függvény Awrami függvény „Lázgörbe” Harmadfokú polinom Szinusz-Awrami függvény
r
ssz.
0,3998 0,7023 0,7250 0,7255 0,7615
1 2 3 4 5
9,5551 11,663 4,8715 0,7928
6
9,5479 11,175 4,8931 0,7958 0,7963 – – – 0,8131 – – –
7 8 9
7,5965 – – – – 10,016 19,753 0 – – 10,010 19,742 – – 10,016 19,745 – – 13,446 9,5887 16,144 – – 4,6836 4,6548 0 2,5401
– – – –
– – – –
– – – – –
3,2427 10,121 13,985 9,1443 24,371 6,8783 0,8211
10
1.19. táblázat
A bemutatott táblázatban szereplő jellemző értékeknek a függvény paraméterekből történő közvetlen kiszámításának módját ill. képleteit a következő táblázatok tartalmazzák. Megjegyzés: a „lázgörbe” ill. a harmadfokú polinom paraméterei nem értelmezhetők közvetlenül, ezen függvények esetében jellemző értékekhez csak összetett matematikai eljárással – differenciálással – juthatunk, az eredmények bizonytalan értékelése mellett.
80 Sorszám
1
2
3
Értékek
Függvények Egyenes Gauss TUVXm TUVXn
0 –
– 2
TUVXp TUVWpo TUVXTq
– – –
0 – –
TUVWno
–
4
Szinusz
– 0+ 3 s + 1 2∗ 2 – – –
0
8
9
Másodfokú Harmad„Lázgörbe” polinom fokú p. 0 – 0 0 – – 1
–
– – –
–
– – –
– – –
1.20. táblázat
Sorszám
5
6
Függvények
Bertalanffy
Tangenshiperbolikusz
Értékek
2l
3 ∗ tanh
2∗ 1− 1
2g 1gh 2P 1Ph
−
2Oi
– – 2
1 0,01 ∗ ln 0 1 –
1+
1 2
2∗ − 1
c !E
– – 3+ 0
+ 0
0,99 ∗ 3 − 0,01 ∗ 0 3
2∗ 3
Értékek
1.21. táblázat
Sorszám
7
10
Függvények
Awrami
Szinusz-Awrami
2l 2g
0 –
1gh 2P
1Ph
2Oi
–
exp
0+ 3
1 ∗ ln ln 100 − ln 2 1 3
1.22. táblázat
exp
0 0+ 4
1 2∗ 3 ∗ ln ln − ln 2 1 2∗ 3−s 0 + 4 ∗ sin 3
exp
1 ∗ ln ln 100 − ln 2 1 4
1.5. Értékelés és összefoglalás Áttekintve az ismertetett elemzéseket, adatokat, következtetéseket és a bemutatott táblázatokat a következők megállapítások tehetők: 1. Az olyan adathalmazok vizsgálatánál, mint amilyen a megválasztott felhőszerű ponthalmaz volt, nem egyszerű a megfelelő illeszkedésű függvény megkeresése, azzal a feltétellel, hogy a nyert paraméterek mind egyszerűen értelmezhetők legyenek. 2. Célszerű a ponthalmaz grafikus ábrázolása alapján sokféle függvény regressziós alkalmazása. 3. Elsőként olyan függvények kipróbálása a kedvező, melyek maximummal rendelkeznek, és a kapott paramétereik egyszerűen értelmezhetők. Ilyenek a Gauss-függvény, a szinusz függvény, a másodfokú parabola. Segítségükkel a ponthalmaz középső tartományával kapcsolatban kaphatunk tájékoztató adatokat, még gyenge korrelációs együtthatóval. 4. Másodikként célszerű telítési függvényekkel próbálkozni. Ilyenek lehetnek: Bertalanffy-függvény, tangens hiperbolikusz függvény, Awrami-függvény. Ezek alkalmazásával a ponthalmaz határértékei vonatkozásában nyerhetünk új adatokat, valamivel jobb korrelációs együttható mellett. Megjegyzendő: a kapott paraméterek egyszerűen értelmezhetők. 5. Mivel a Gauss-, szinusz-, másodfokú parabola függvények alkalmazásánál az értelmezhető paraméterek száma kettő, a Bertalanffy-, tangens hiperbolikusz-, Awrami-függvényeknél három ill. négy, ahogyan a mellékelt táblázat is bemutatja,célszerű olyan függvényt keresni, amely több értelmezhető paramétert ad meg, és így bővebb használható információval szolgál a teljes tartományra nézve. 6. A táblázatok értékeit vizsgálva végső megoldásnak az új szinuszAwrami függvény alkalmazása tekinthető, amely öt értelmezhető paramétereinek felhasználásával hat alapvető adatot ad meg a vizsgált teljes tartományra, és azon kívül is a legjobb korrelációs együtthatóval.
1.6. Statisztikai melléklet a korrelációs vizsgálathoz Az általános bevezetőben szó esett a regressziós vizsgálatok során számított \ értékről, ami korrelációs együtthatóként szerepel, de nem egyezik meg a lineáris korrelációs együtthatóval. Felhasználásával kiszámítható a korrelációs vizsgálat számított t értéke (lásd a későbbiekben), ami minden esetben összevethető az un kritikus értékkel adott szignifikancia szinten. Megadható továb-
82 bá az ú.n. mozgó szórás, a regressziós illesztés egyik jellemzője. Az alábbi táblázat összefoglalja ezen statisztikai jellemezőket, bizonyítva velük az \ értékének megbízhatóságát. A felhasznált számítási formulák: • • • •
w6
Q l
tuv = ∗ a számított t érték, " w6 l " tl a kritikus érték, táblázatból kikeresve a szabadságfokok alapján 1%-os szignifikancia szinten, xQ " = 1,4764 a ponthalmaz koncentráció értékeinek szórása, xgyvzó = |
Egyenes Gauss Szinusz Másodfokú p. Bertalanffy Tangenshiperbolikusz Awrami „Lázgörbe” Harmadfokú polinom Szinusz-Awrami
6 ∗ Q " ∗ " w6 u}/3
Q l
a mozgó szórás érték.
r
~
m m−W ~−m
•€•
•m
0,3998 0,7023 0,7250 0,7255 0,7615
50 50 50 50 50
2 3 4 3 3
1 2 3 2 2
48 47 46 47 47
9,129 22,865 16,993 26,672 32,437
7,823 5,390 4,510 5,390 5,390
0,7928 50
4
3
46
25,946
0,7958 50 0,7963 50
4 4
3 3
46 46
0,8131 50
4
3
0,8211 50
5
4
•€• − •m €n‚•ƒó •€• 0,143 0,764 0,735 0,798 0,834
1,3673 1,0732 1.0495 1,0266 0,9771
4,510
0,826
0,9287
26,475 26,574
4,510 4,510
0,830 0,830
0,9228 0,9217
46
29,917
4,510
0,849
0,8870
45
23,277
4,018
0,827
0,8794
1.23. táblázat
1.7. Többváltozós lineáris és nem lineáris regresszió A többváltozós lineáris és nem lineáris regresszió esetében a modell egy függő és kettő vagy annál több független változót tartalmaz. A feladat most is az, hogy egy adott pontfelhőre megfelelően illeszkedő regressziós függvényt illesszünk. A matematikai megoldás megegyezik az egyváltozós regresszió esetében alkalmazott Gauss-féle legkisebb négyzetek elvével, mind lineáris mind pedig nem lineáris esetben. A módszernek megfelelően képezik a minimalizálandó többváltozós függvényt, majd pedig a parciális deriváltakból előállított normál egyenletrendszer megoldására kerül sor. Ezen utóbbi megoldása itt is rendszerint problémába ütközött a hagyományos kézi módszerek esetén, így feltétlenül szükséges a számítógép adta gyors lehetőség alkalmazása.
A modell típusok: „= Q∗ Q+ • lineáris esetben:K • nem lineáris esetben: „ K =D " ;
∗ ; … ; ? Q "
Q "
Q
.
+ ⋯+
"
∗
"
+
$,
A műszaki gyakorlatban azonban a fent említett modellekben a változók száma nem igen haladja meg az ! = 2 értékét. Ebben az esetben mód van arra, hogy grafikus szemléltetésre kerüljön sor, aminek igen nagy jelentősége van, már a pontfelhő vizsgálata során is. Mivel háromdimenziós térben vizsgálhatjuk ponthalmazunkat, lehetőség nyílik arra, hogy a pontfelhő fősíkokra eső vetületi ábráit is láthassuk, melyek a feltételezett modell parciális függvényeit kell, hogy kövessék. A modellválasztás azonban nem egyszerű feladat, hiszen kétváltozós függvények esetében leginkább az úgynevezett nevezetes felületek ábráit ismerjük, valamint könnyedén elképzelhetjük az eltolási felületeket, ha az eltolás valamelyik tengely irányában történik. A baj az azonban, hogy ilyen felületeket általában a regressziós eljárások esetén nem tudunk használni. A bonyolultabb modellek, melyek alkalmazásra kerülnek, már nehezen elképzelhetők a három dimenzióban, már akkor is, ha a két változó egyszerű parciális függvényeinek összegeként álltak elő. A modell tehát lehet a parciális függvények additív, multiplikatív vagy akár ezek vegyes rendszere. Célszerű tehát magát az alkalmazásra kerülő modellt megvizsgálni, a három dimenzióban ábrázolni, ismerni a függvény tulajdonságait, figyelembe véve a már egyváltozós esetnél felsoroltak szerint. Ha a modell alkalmasnak bizonyul, sor kerülhet az illesztésére, aminek pontosságát itt is az \ értéke jelzi. Az alábbiakban bemutatásra kerül néhány többváltozós nem lineáris regressziós alkalmazás.
1.8. Biometriai többváltozós kísérletek elemzése Biometriai kísérleti rendszerek esetén célszerű két alapvetően eltérő csoportot figyelembe venni. Az egyik esetben élő növényzetek, például gabonafélék, gyomok, stb. viselkedését vizsgálhatjuk, másik esetben nem időbeli rendszerek, például kitermelt faanyagok tulajdonság szerkezetét tanulmányozhatjuk. Bármelyik esetről legyen szó, a kísérletek megtervezésénél gondosan figyelve kell megválasztani a függő és független változókat. A biometriai rendszerek tanulmányozásánál egyértelmű, hogy a folyamatok, a tulajdonságok értékei ill. a változók nem tartanak a végtelenbe, így csak olyan leíró függvények illeszthetők az adatsorokra, melyeknek paraméterei a vizsgált kísérlet szempontjából értelmezhetők. Így spline-nok vagy lineáris függvényszerkezetek nem jöhetnek szóba. A két független és egy függő változót alkalmazó biometriai kísérleti rendszereknél vagy modelleknél illeszthető leíró függvényszerkezetek igen sokféle
84 összetételűek lehetnek. Alkalmazható függvények lehetnek természetesen megfelelően transzformált alakban: Awrami, tangens hiperbolikusz, Gauss függvények kombinált összetételei. A kombinálás módja lehet a két formula összege, különbsége vagy szorzata egyszerűbb esetekben. A következőkben bemutatásra kerülő modell – ill. tárgyi – kísérleteknél ilyen kombinációk alkalmazása történik meg.
1.8.1. Első kísérlet (gabonafélék növekedése) Először gabonafélék növekedésével kapcsolatos modellkísérlet elemzésére kerül sor, ahol a tervezet szerint 6 db. azonos talajszerkezetű és minőségű parcella stabilan tartott különböző relatív nedvességtartalommal rendelkezve biztosítja az illetékes gabonaféle (egyenes szárú növény) 7-szer kéthetes magasságnövekedését. Tehát: Az első független változó 1 : az idő, egysége: nap, terjedelme: 0-98 nap. A második független változó 2 : a maximálisan alkalmazható talajnedvesség tartalom %-része, egysége: %, terjedelme: 0-100%. A függő változó ( 3): egyszálú, egyenesen növő növény, a gabonaféle magassága, egysége: cm, terjedelme: 0-45 cm. Összefüggések a változók között: 3↦ 1 Egyértelmű a folyamat: a növény magassága a közelítő 0 értékről egy végső értékig változik az idő függvényében, tehát vagy Awrami vagy tangens hiperbolikusz transzformált függvény írja le a változást. 3↦ 2 Egyértelmű a folyamat: a növény magassága a közelítő 0 értékről egy végső értékig változhat attól függően, hogy milyen a talaj nedvességtartalma a maximális érték százalékában, tehát ezt a jelenséget ismét egy Awrami vagy tangens hiperbolikusz transzformált függvény írhatja le. A fentiekből következik: 3↦ 1; 2 többváltozós leíró és illeszthető függvény az előbb említett kétféle függvény szorzata vagy összege lehet. A modellkísérlet adatsorát az alábbi táblázat mutatja be: sorszám
TUVW
TUVX
TUV‰
sorszám
1 2 3 4 5 6
0,000 0,000 0,000 0,000 0,000 0,000
0,000 20,000 40,000 60,000 80,000 100,000
0,000 0,000 0,000 0,000 0,000 0,000
25 26 27 28 29 30
TUVW
TUVX
56,000 0,000 56,000 20,000 56,000 40,000 56,000 60,000 56,000 80,000 56,000 100,000
TUV‰ 0,000 11,500 25,100 31,400 33,200 33,600
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
14,000 0,000 0,000 14,000 20,000 0,000 14,000 40,000 0,100 14,000 60,000 0,300 14,000 80,000 0,400 14,000 100,000 0,400 28,000 0,000 0,000 28,000 20,000 0,600 28,000 40,000 1,300 28,000 60,000 1,600 28,000 80,000 1,700 28,000 100,000 1,700 42,000 0,000 0,000 42,000 20,000 4,400 42,000 40,000 9,600 42,000 60,000 12,100 42,000 80,000 12,800 42,000 100,000 12,900
31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
70,000 0,000 0,000 70,000 20,000 13,700 70,000 40,000 29,700 70,000 60,000 37,300 70,000 80,000 39,400 70,000 100,000 39,900 84,000 0,000 0,000 84,000 20,000 13,700 84,000 40,000 29,800 84,000 60,000 37,400 84,000 80,000 39,500 84,000 100,000 39,900 98,000 0,000 0,000 98,000 20,000 13,700 98,000 40,000 29,800 98,000 60,000 37,400 98,000 80,000 39,500 98,000 100,000 39,900
1.24. táblázat
Az illesztett többváltozós függvény matematikai alakja: K=
Š
∗ 1−
Számítógépi alakja: 3=
‹∗
&Œ
∗
L
∗ 1−
6 ∗•
&3
+
$.
6 ∗ 1 − exp −1 ∗ b5 ∗ 1 ^b4 ∗ b3 ∗ 1 − exp −1 ∗ b2 ∗ 2 ^b1 + b0
A regresszió természetesen hagyományos klasszikus matematikai eljárással nem végezhető el, számítógépi megfelelő programmal azonban igen. A program a kvázi-Newton módszert alkalmazta, kihasználva a nagy számú ismétlési lehetőségek rendkívüli sebességét a pontosítás érdekében. Az illesztés paramétereinek kezdőértékei és eredményei a következők: Kezdőértékek: 6 = 5 = 4 = 3 = 2 = 1 = 0 = 1. Paraméterek: 6 = 7,5500, 3 = 5,2884, 5 = 0,0200, 2 = 0,0300, 4 = 5,4000, 1 = 1,7080, 0 = 0,0486, \ = 0,99997. Értelmezés: 6 ∗ 3 + 0 = 39,97 : A növény magassági tartománya, egyúttal a legnagyobb magasság.
86 "
I
"
?
=
"
$,$?$$
= 50 nap : A növény növekedési sebessége lassulásának (kö-
zelítő) időpontja. " = = 33,33 % : A növény növekedési sebessége lassulásának $,$L$$
(közelítő) talajnedvesség %-a. J I,J = ?,•"•? = 1,99 A normál Awrami függvényhez viszonyított meredek. "
.
ségi tényező 1 viszonylatában. ",• = = 0,63 A normál Awrami függvényhez viszonyított meredek?,•"•?
ségi tényező 2 viszonylatában. ‘ ( A normál Awrami függvény alakja: = ∗ 1 − .) A korrelációs együttható \ = 0,9999 értéke alapján látható, hogy az illesztés kiváló, a háromdimenziós ábra pedig jól mutatja a modellkísérlet elemzésének szemléltető eredményét, és azt, hogy a választott függvény minden szempontból megfelelő volt.
1.53. ábra
1.8.2. Második kísérlet (gyomirtó szer hatása) Második modellkísérletként a gyomirtó szer hatásával kapcsolatos vizsgálat elemzésére kerül sor, ahol a tervezet szerint 6 azonos talajszerkezetű parcellán azonos darabszámú gyorsan szaporodó gyomnövény számbeli változásának időbeli meghatározására kerül sor úgy, hogy minden parcellán a kísérlet kezdetén más koncentrációjú gyomirtó szer alkalmazására kerül sor (azonos elosztásban). Tehát: Az első független változó ( 1): az idő, egysége: nap, terjedelme: 0-100 nap. A második független változó ( 2): a maximálisan alkalmazható gyomirtó szer koncentrációja %-ban, egysége: %, terjedelme: 0-80%. A függő változó ( 3): a található élő gyomnövények darabszáma, egysége: darab, terjedelme: 0-50 darab. Összefüggések a változók között: 3↦ 1 : Akár növekedik a gyomnövény időbeli darabszáma a gyenge gyomirtó szer hatás miatt, akár csökken a jó hatás miatt, a darabszám időbeli változása értékhatárok között mozog, így a folyamatot leíró függvény Awrami vagy tangens hiperbolikusz transzformált függvény lehet. 3↦ 2 : Az élő gyomnövények darabszáma a parcellánként alkalmazott gyomirtó szer koncentráció értéke szerint 0 és maximális nagyság között változhat, így ezen határértékek jelenléte miatt itt is Awrami vagy tangens hiperbolikusz megfelelően transzformált függvény használata a szükséges. A fentebbiekből itt is következik: 3↦ 1; 2 többváltozós leíró és illeszthető összetett függvény az előbb említett kétféle függvény szorzata vagy összege lehet. A modellkísérlet adatsorát az alábbi táblázat mutatja be: sorszám
TUVW
TUVX
TUV‰
sorszám
TUVW
TUVX
TUV‰
1 2 3 4 5 6 7 8 9 10 11
0,000 20,000 40,000 60,000 80,000 100,000 0,000 20,000 40,000 60,000 80,000
0,000 0,000 0,000 0,000 0,000 0,000 16,000 16,000 16,000 16,000 16,000
23,000 26,000 34,000 42,000 46,000 47,000 23,000 26,000 33,000 41,000 44,000
19 20 21 22 23 24 25 26 27 28 29
0,000 20,000 40,000 60,000 80,000 100,000 0,000 20,000 40,000 60,000 80,000
48,000 48,000 48,000 48,000 48,000 48,000 64,000 64,000 64,000 64,000 64,000
23,000 22,000 20,000 17,000 15,000 15,000 23,000 21,000 14,000 7,000 4,000
88 100,000 0,000 20,000 40,000 60,000 80,000 100,000
12 13 14 15 16 17 18
16,000 32,000 32,000 32,000 32,000 32,000 32,000
45,000 23,000 25,000 29,000 33,000 36,000 36,000
30 31 32 33 34 35 36
100,000 0,000 20,000 40,000 60,000 80,000 100,000
64,000 80,000 80,000 80,000 80,000 80,000 80,000
3,000 23,000 21,000 13,000 5,000 1,000 0,000
1.25. táblázat
Az illesztett többváltozós függvény matematikai alakja: K=
Š
∗ 1−
Számítógépi alakja: 3=
‹∗
&Œ
6 ∗ 1 − exp −1 ∗
∗ −
L
∗ tanh
?
∗
−
"
+
$.
5∗ 1 ^ 4 ∗ −1 ∗ 3 ∗ tanh 2 ∗ 2 − 1 ∗ 1 + 0.
A regresszió hagyományos klasszikus matematikai eljárással itt sem végezhető el, a számítógépi megfelelő program lényege itt is a „kvázi-Newton” módszer. Az illesztés paramétereinek kezdőértékei és eredményei a következők: Kezdőértékek: 6 = 1, 3 = 1, 5 = 0,05, 2 = 0,05, 4 = 2, 1 = 10, 0 = 20. Paraméterek: 6 = 5,8000, 3 = 4,1320, 5 = 0,0200, 2 = 0,0596, 4 = 2,3530, 1 = 41,989, 0 = 23,320, \ = 0,9998. Értelmezés: 6 ∗ 2 ∗ 3 = 5,800 ∗ 2 ∗ 4,132 = 48 db. A gyomok előfordulási tartománya, egyúttal a legnagyobb gyomszám. " " = $,$?$$ = 50 nap. A gyomnövény szaporodási ill. elhalási sebessége I változásának (közelítő) időpontja. " ∗ 5 = ∗ 5 = 84 %. A gyomirtó szer használati tartománya köze? $,$IdŠ
"
lítő értéke (0-80%). 1 = 41,989 ≅ 42 %. A gyomirtó szer tényleges hatékonnyá válásához szükséges minimális koncentráció %-a (inflexiós pont 2 vonatkozásában). J ?,LId = ?,•"•? = 0,87. A normál Awrami függvényhez viszonyított mere.
dekségi tényező 1 viszonylatában. A korrelációs együttható \ = 0,9998 értéke alapján látható, hogy az illesztés kiváló, a háromdimenziós ábra pedig jól mutatja a modellkísérlet
elemzésének szemléltető eredményét, és azt, hogy a választott függvény minden szempontból megfelelő volt, és a paraméterei mind jól értelmezhetők.
1.54. ábra
1.8.3. Harmadik kísérlet (nyomószilárdság vizsgálat) Harmadik kísérletként bemutatásra és részletes elemzésre kerül egy olyan vizsgálat adatsora, melynek értékei egy korábbi kísérlet rendszeréből Csanády V.[2] származnak, azok szisztematikus válogatásával, kiszűrve a pontatlan ill. hibás értékeket. Ezen vizsgálatnál már nem élő biológiai egyedekről van szó, hanem feldolgozásra kerülő faanyagból nyert mintákról, ahol a vizsgálat arra terjed ki, milyen összefüggés van a faanyag nyomószilárdsága, sűrűsége és pásztaaránya között. Az erdeifenyőből (Bugac-ról származó) nyert kisméretű téglatestek vizsgálatánál egyértelműen megállapítható, hogy az említett három változó mindegyike jól meghatározható értékhatárok között változik, és a nyomószilárdság értéke függ a sűrűségtől és a pásztaaránytól. Ennek megfelelően tehát:
90 1 : a sűrűség, egysége:
Az első független változó lz
lz
g(
, terjedelme:
500 − 640 (. (A nyert adatok értelmében.) g A második független változó 2 : a pásztaarány, egysége: nevezetlen szám (viszonyszám), terjedelme: 1-7. (A nyert adatok szerint.) A függő változó 3 : a nyomószilárdság, egysége: mP (megapaszkál), terjedelme: 40-67 mP. (A nyert adatok szerint.) Összefüggések a változók között: 3↦ 1 : A faanyag sűrűségének növekedésével megállapítható értékhatárok között növekedik a nyomószilárdság, tehát a folyamatot célszerűen tangens hiperbolikusz transzformált függvény írhatja le, megjegyezve azt, hogy a sűrűség is értékhatárok közötti. 3↦ 2 : A nyomószilárdság a pásztaarány növekedésével csökken, a változás megállapítható értékhatárok között történik, a folyamatot tehát itt is tangens hiperbolikusz transzformált függvény jellemezheti, megjegyezve még, hogy a pásztaarány itt is értékhatárok közötti. A felsoroltakból következik: 3↦ 1; 2 többváltozós illeszthető és leíró összetett függvény az előbbiekben említett két függvény összege lehet célszerűen. A kísérlet adatsorát az alábbi táblázat tartalmazza. sorszám
TUVW
TUVX
TUV‰
sorszám
TUVW
TUVX
TUV‰
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
500,000 504,000 511,000 512,000 513,000 521,000 523,000 531,000 534,000 535,000 536,000 546,000 548,000 557,000 567,000 569,000 570,000
1,000 5,610 1,920 1,460 6,080 4,690 6,510 6,070 3,330 1,020 2,850 4,230 6,530 5,620 6,550 2,380 5,150
47,900 41,100 47,600 47,800 40,800 42,900 40,800 41,700 46,700 48,900 47,500 46,000 42,800 46,400 50,100 56,700 51,300
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
580,000 581,000 582,000 592,000 594,000 595,000 603,000 604,000 605,000 615,000 626,000 627,000 636,000 638,000 639,000 649,000 650,000
6,990 4,660 1,010 5,630 3,310 1,910 6,960 1,480 4,230 6,080 5,150 3,770 6,540 4,710 2,870 1,040 7,000
54,300 56,500 61,800 58,100 62,700 64,500 59,000 66,400 62,200 60,100 61,400 64,300 60,300 62,300 66,300 67,800 60,200
1.26. táblázat
Az illesztett többváltozós függvény matematikai alakja:
K=
Š
∗ tanh
I
∗
Számítógépi alakja: 3=
−
J
+
Š
+
L
∗ tanh
?
∗
6 ∗ tanh 5 ∗ 1−1∗ 4 + 6 + 2 − 1 ∗ 1 + 3 + 0.
−
"
+
L
+
$.
3 ∗ tanh 2 ∗
A regresszió klasszikus matematikai eljárással nem végezhető el ezen esetben sem, a számítógépi megfelelő program alapja itt is a „kvázi-Newton” módszer. Az illesztés paramétereinek kezdőértékei és eredményei a következők: Kezdőértékek: 6 = 10, 3 = 4, 5 = 0,05, 2 = 0,5, 4 = 550, 1 = 3, 0 = 40. Paraméterek: 6 = 10,021, 3 = 3,856, 5 = 0,0391, 2 = −0,6245, 4 = 569,88, 1 = 3,953, 0 = 40,143, \ = 0,9996. Értelmezés: 2 ∗ 6 + 2 ∗ 3 = 2 ∗ 10,021 + 2 ∗ 3,85 = 27,75 mP. A nyomószilárdság változási tartománya. 2 ∗ 6 + 2 ∗ 3 + 0 = 27,75 + 40,143 = 67,9 mP. Az előfordulható legnagyobb nyomószilárdság. lz 4 = 569,88 (. A sűrűség függvényében bekövetkező nyomószilárdság g növekedés intenzitásának változását jelző sűrűségérték (inflexiós hely). 1 = 3,953 A pásztaarány függvényében bekövetkező nyomószilárdság csökkenés intenzitásának változását jelző pásztaarány érték (inflexiós hely). " " lz ∗ 5,3 = $,$Ld" ∗ 5,3 = 136 g(. A sűrűségváltozás létezhető (értékelheI "
?
lz
tő) tartománya (500-640 g() 1% pontossággal. "
∗ 3,9 = $,Š?JI ∗ 3,9 = 6,24 A pásztaarány változás létezhető (értékel-
hető) tartománya (1-7) 4% pontossággal, mert a pásztaarány megmérése legjobb esetben ekkora hibát tartalmaz. 0 = 40,143 mP. A nyomószilárdság kezdő (legkisebb) értéke. (Megjegyzés: tanh 2,65 = 0,9900 1% , tanh 1,95 = 0,9603 4% , 2,65 ∗ 2 = 5,3 és 1,95 ∗ 2 = 3,9.)
A korrelációs együttható \ = 0,9996 értéke alapján látható, hogy az illesztés itt is kiváló, az alábbi háromdimenziós ábra pedig itt is jól mutatja a kísérlet elemzésének szemléltető eredményét, és azt, hogy a megválasztott függvény minden szempontból megfelelő volt, és paraméterei valamennyien jól értelmezhetők.
92
1.55. ábra
Összefoglalóan az előbbiek alapján megállapítható, hogy a modellkísérletek esetében a regressziós számítógépi program futtatásához szükséges kezdőértékek meghatározása könnyebb, mint a gyakorlati kísérletek (harmadik eset) adatsoránál, ahol célszerű a kezdőértékek megfelelő és többször ismételt megválasztásával eredményre jutni a legjobb korrelációs együttható (R) érdekében. Ugyanekkor a kapott háromdimenziós ábra megnagyítása és különböző helyzetbe való elforgatása jó tájékozódást nyújt arról, hogy a többváltozós és összetett transzformált függvényt jól választottuk-e meg, továbbá ezen vizuális elemzés segít a program által meghatározott paraméterek helyes értékelésében is. Kiderül ilyen módon még az is, hogy a vizsgálat tartományának kiterjesztése elégséges mértékű, vagy növelendő. Ennek meghatározására különösen az ad lehetőséget, hogy a különböző felsorolt biometriai kísérletek elemzéséhez Awrami és tangens hiperbolikusz transzformált függvények alkalmazása történt, mely függvények könnyen meghatározható határértékekkel jellemezhetők.
2. Főkomponens-analízis
2.1. Bevezetés A főkomponens-analízis a többváltozós adatelemzés egy gyakran használt matematikai eljárása. Az adatokban rejlő belső összefüggések feltárására használják, információsűrítésre alkalmas módszer. Az eljárás lényege az, hogy nagyszámú, korreláló változókból (itemekből) kisebb számú mesterséges (látens), korrelálatlan változókat (főkomponenseket) képezünk, amelyek varianciája maximális. Mivel a főkomponensek korrelálatlan változók, nem feltétlen függetlenek egymástól (hiszen a korrelálatlanság a függetlenség szükséges, de nem elegendő feltétele). Az eljárás előnyei: • az adatok átláthatóbbakká válnak, • az értelmezésük könnyebb lesz, • könnyebbé válnak az új változókkal (főkomponensekkel) való további műveletek, • csökkentjük a hiba mértékét, • megbizonyosodhatunk arról, hogy azok a változók, amelyekkel közös dimenziót akarunk vizsgálni, valóban egy dimenziót mérnek-e. 2.1. Példa Kiválasztottunk egy osztályból négy tanulót, hasonlítsuk össze a tanulmányi eredményüket! Példánkban mind a négy tanuló jegyeinek átlaga körülbelül ugyanannyi, mégsem mondható, hogy ugyanolyan szintű tudással, egyforma képességekkel rendelkeznek. András nagyjából egyenletesen teljesített, csak két jelese van, énekből és testnevelésből. Bence három tárgyból is jeles (egyik sem készségtárgy), viszont kapott két elégtelent. Ezek alapján mondhatjuk, hogy Bence egyes területeken kiváló, más területeken pedig elég gyengék a képességei. Cili és Bence átlaga megegyezik, viszont Cili három tárgyból jeles, mindegyik készségtárgy, viszont csak egy osztályzata elégtelen. Dani nem bukott semmiből, reál tantárgyakból jó eredményt ért el, sőt némelyikből kiemelkedő. Gyengébb jegyei főként humán tárgyakból és egyes készségtárgyakból vannak. Látható, hogy az átlagszámítás nem feltétlenül tükrözi a tanulmányi eredményt, ugyanis nem veszi figyelembe az egyes tantárgyak fontosságát. A főkomponens-analízis választ adhat erre, és az ehhez hasonló problémákra. A 2.1. példára később visszatérünk.
94 András
Bence
Cili
Dani
Var1-magyar irodalom Var2-magyar nyelvtan Var3-történelem Var4-idegen nyelv Var5-matematika Var6-fizika Var7-kémia Var8-biológia Var9-földrajz Var10-informatika Var11-ének Var12-rajz Var13-testnevelés
3 3 3 3 2 2 3 3 3 3 5 4 5
5 5 5 4 2 1 2 2 3 1 3 4 4
4 4 3 3 1 2 2 3 2 2 5 5 5
2 2 2 2 5 5 5 4 4 4 2 2 3
átlag
3,23
3,15
3,15
3,23
2.1. táblázat. A kiválasztott négy tanuló osztályzatai
2.2. A főkomponens-analízis matematikai alapja Az első főkomponenst úgy kapjuk, hogy megkeressük a változóknak azt a lineáris kombinációját, amelynek a szórása maximális. Szemléletesen: az adatok által meghatározott pontfelhőt arra az egyenesre vetítjük le, ahol a pontok szóródása a lehető legnagyobb lesz. Ezután az erre az egyenesre merőleges irányok mentén ismét megkeressük azt az egyenest, ahol a pontok szóródása a legnagyobb lesz. (Vigyázat, n-dimenziós térben kell gondolkodni, nem három dimenzióban!) Ezt az eljárást addig folytatjuk, amíg megtaláljuk az összes főkomponenst. Legfeljebb annyi főkomponens lehet ahány változó van, és a főkomponensek egymásra merőlegesek. A főkomponens-analízis kiindulási pontja egy p változóból és n db mérésből álló adatbázis, ahogy azt a következő táblázat is mutatja: 1 2 ⋮ !
”"
”?
?"
??
""
⋮
Q"
"?
⋮
Q?
⋯ ⋯ ⋯ ⋱ ⋯
”•
"•
?•
⋮
Q•
2.2. táblázat. A főkomponens-analízis kiinduló táblázata
Az első főkomponens az ”" , ”? , ⋯ , ”• változók következő lineáris kombinációja: ˜" =
""
∙ ”" +
"?
∙ ”? + ⋯ +
"•
∙ ”• ,
amely mérésenként változik. Az egyetlen feltétel az, hogy az együtthatók négyzetösszegére teljesüljön, hogy ? ""
+
? "?
+ ⋯+
? "•
=1.
Ez az "™ -re (š = 1, 2, … , adott feltétel biztosítja azt, hogy ˜" varianciája ( ˜" ) a lehető legnagyobb lesz. (Vigyázat, ˜" , ”" , stb. a varianciát jelenti, és nem tévesztendő össze a későbbiekben használt 1, 2, stb. jelölésekkel, amelyet a STATISTICA 11 programcsomag a változók jelölésére használ!) Ha nem szabnánk ilyen feltételt, akkor ˜" -et növelhetnénk egyszerűen azáltal, hogy bármely "™ értéket növeljük. Ennek pontos matematikai indoklása mélyebb ismereteket igényel, itt nem részletezzük. Csupán megemlítjük, hogy azon alapul, hogy független változók esetén az összeg varianciája négyzetes súlyokkal képződik: ˜" = =
? ""
""
∙
∙ ”" +
”" +
"?
? "?
∙ ”? + ⋯ + ∙
?"
∙ ”" +
??
∙ ”• =
”? + ⋯ +
A második főkomponens az ”" , ”? , ⋯ , ”• változók ˜? =
"•
∙ ”? + ⋯ +
?•
? "•
∙
”• .
∙ ”•
lineáris kombinációja. Most már két feltételnek kell eleget tennie: egyrészt az együtthatók négyzetösszegére teljesüljön, hogy ? ?"
+
? ??
+⋯+
? ?•
=1,
ezáltal ˜? a lehető legnagyobb lesz, másrészt ˜" és ˜? nem korrelálhat egymással. A harmadik főkomponens az ”" , ”? , ⋯ , ”• változók ˜L =
L"
∙ ”" +
L?
∙ ”? + ⋯ +
L•
∙ ”•
lineáris kombinációja. Ennek az alábbi feltételeknek kell eleget tennie: egyrészt ˜L akkor lesz maximális, ha az együtthatók négyzetösszegére teljesül, hogy ? L"
+
? L?
+⋯+
? L•
=1,
másrészt ˜L nem korrelálhat ˜" -gyel és ˜? -vel. A további főkomponenseket is ugyanígy határozzuk meg. Ha p változónk van, akkor elvileg akár p főkomponenst is kaphatunk, bár ebben az esetben a módszerrel nem értük el a kitűzött célt (a változók számának csökkentését), vagyis alkalmazásának értelme megkérdőjeleződik.
96 A főkomponens-analízis eredményeinek használathoz nem kell feltétlenül tudnunk, hogy hogyan kapjuk a főkomponens-analízis egyenleteit, de magukat az egyenleteket hasznos megérteni. Valójában a főkomponens-analízis csupán a minta kovariancia mátrixának (vagy korrelációs mátrixának) a sajátértékeit keresi meg. Amennyiben a kovariancia mátrixot elemezzük, az eredmény függ a változók skálájától (eltérő mértékegységek esetén a változók nem arányosan fejtik ki hatásukat a főkomponensekre). Ha ez nem kívánatos, akkor standardizálni kell a változókat, ilyenkor nem a kovariancia mátrixot, hanem a korrelációs mátrixot elemezzük. A változók standardizálása azt jelenti, hogy az elemzés kezdetén az adatokat úgy transzformáljuk, hogy az átlaguk nulla, varianciájuk pedig 1 legyen. A gondolatmenet további folytatásához legyen C a kovariancia mátrix:
c11 c12 ⋯ c1 p c21 c22 ⋯ c2 p C = . ⋮ ⋮ ⋮ c c … c p 1 p 2 pp Tegyük fel, hogy a C mátrix sajátértékeinek sorrendje λ1 ≥ λ 2 ≥ … ≥ λ p ≥ 0 , és λi az i-edik főkomponenshez kapcsolódik: Z i = a i1 ⋅ X 1 + a i 2 ⋅ X 2 + … + a ip ⋅ X p ,
ahol a Z i főkomponens ai1 , ai 2 , … , aip együtthatói a λi sajátértékhez tartozó sajátvektor elemei. A sajátértékek fontos tulajdonsága, hogy összegük megegyezik a C mátrix főátlójában elhelyezkedő elemek összegével:
λ1 + λ 2 + … + λ p = c11 + c 22 + … + c pp . Ennek jelentése a főkomponens-analízis szempontjából nagyon fontos. Mivel λi a Z i főkomponens varianciája, cii pedig az X i változó varianciája, ez az egyenlőség azt mutatja, hogy a főkomponensek varianciájának összege egyenlő az eredeti változók varianciájának összegével. Ezáltal a főkomponensek bizonyos értelemben magyarázzák az eredeti adatok teljes variabilitását. Ha a kiértékelés kezdetén az adatokat standardizáltuk, akkor nem a C kovariancia mátrixot, hanem az R korrelációs mátrixot elemezzük:
1 r12 ⋯ r1 p r21 1 ⋯ r2 p R= ⋮ ⋮ ⋮ r r … 1 p1 p 2
A korrelációs mátrix a főátlójára szimmetrikus, hiszen rij = r ji , ugyanis mindegyik az X i és X j változók közötti korrelációt jelenti. Mivel rii = 1 (egy változó önmagával vett korrelációja), ezért a főátlóban 1-esek vannak. Ha tehát korrelációs mátrixot használunk, akkor
λ1 + λ 2 + … + λ p = r11 + r22 + … + rpp = p ⋅ 1 = p , azaz a sajátértékeknek az összege és a főátlóban elhelyezkedő elemeknek az összege is p-vel, a változók számával egyenlő. A főkomponens-analízis szempontjából ez azt mutatja, hogy a főkomponensek varianciájának összege ebben az esetben is egyenlő az eredeti változók varianciájának összegével. Ezáltal a főkomponensek korrelációs mátrix használata esetén is bizonyos értelemben magyarázzák az eredeti adatok teljes variabilitását. Ez azt jelenti, hogy a főkomponens-analízist a korrelációs mátrix alapján is el lehet végezni.
2.3. A főkomponens-analízis lépései Főkomponens-analízis során tehát egy másik bázisban (a sajátvektorok alkotta bázisban) írjuk fel az adatokat. A sajátvektorokat (az eredeti változók lineáris kombinációit) látens változóknak hívjuk, és sajátvektorok (főkomponensek) merőleges egymásra. A főkomponensek jelentőségét a varianciájuk (sajátértékük) mutatja. Azok a főkomponensek, amelyek az adatoknak csekély arányú varianciáját magyarázzák, elhagyhatók. Csak az 1-nél nagyobb sajátértékű főkomponenseket tartjuk meg (ezek egy eredeti változónyi információnál többet tartalmaznak, ugyanis az eredeti változók sajátértéke 1). Például tegyük fel, hogy egy vizsgált problémában 10 változó van, és 7 főkomponens a teljes varianciát magyarázza. Ha közülük az első három (1-nél nagyobb sajátértékűek) együtt a teljes variancia kb. 80-90%-át magyarázza, akkor elegendő ezt a három főkomponenst figyelembe venni, a többi négy főkomponenstől eltekinthetünk. Természetesen amennyiben nem tartjuk meg az összes főkomponenst, nem tudjuk az eredeti változók varianciáját teljes mértékben reprodukálni, de ez nem is célunk. A főkomponens-analízis leginkább akkor segít, ha a főkomponenseknek jelentést tudunk adni. A főkomponensek értelmezésénél azt vizsgáljuk, hogy melyik főkomponens melyik eredeti változóval korrelál. A főkomponensek értelmezése nem mindig egyértelmű és egyszerű feladat. Akkor könnyebb, ha az eredeti változók csak egy-két főkomponenssel vannak szoros korrelációban. Az is gyakran előfordul, hogy a főkomponenseket nem lehet értelmezni. A főkomponens-analízis valamely statisztikai eljárás kiindulópontja is lehet, a főkomponensekkel, mint új változókkal további műveleteket végezhetünk el.
98 Összefoglalva a főkomponens-analízis lépéseit: I. Megvizsgáljuk a módszer alkalmazhatóságát. II. 1. Standardizáljuk az X 1 , X 2 , … , X p változókat (átlaguk nulla, varianciájuk egységnyi legyen). Ez a lépés bizonyos esetekben elhagyható. 2. Kiszámítjuk a C kovariancia mátrixot. Ha a kiértékelést standardizálással kezdtük (vagyis az 1. lépést elvégeztük), akkor az R korrelációs mátrixszal dolgozunk tovább. 3. Megkeressük a C vagy R mátrix λ1 , λ 2 , … , λ p sajátértékeit és kiszámítjuk a hozzájuk tartozó sajtvektorokat. A sajátértékekkel csökkenő sorrendben dolgozzunk (ld. következő vázlatpont). A λi sajátértékhez tartozó sajátvektor elemei az a i1 , a i 2 , … , a ip konstansok, ezek lesznek a Z i főkomponens együtthatói, λi pedig a varianciája. 4. Csak az 1-nél nagyobb sajátértékű főkomponenseket tartjuk meg, és ha lehetséges, akkor értelmezzük a főkomponenseket.
2.4. Főkomponens-analízis STATISTICA 11 programcsomag segítségével A következőkben megnézzük a főkomponens-analízis lépéseit a bevezetésben lévő 2.1. példa kapcsán, a STATISTICA 11 programcsomag segítségével. Egyelőre az előbb felsorolt vázlatpontok közül csak a II. pont lépéseit tárgyaljuk, az I. pontra később visszatérünk. A kiértékelésnél kiindulhatunk a kovariancia-mátrixból és a korrelációs mátrixból is. Ennél a példánál a kovariancia-mátrixos megoldást követjük. Ezt akkor érdemes használni, ha a változóink azonos egységben mérhetőek, illetve ha a főkomponens-elemzés után egy adat főkomponens-értékét szeretnénk meghatározni. Egyéb esetekben a korrelációs-mátrixból kiinduló megoldás javasolt. A 2.3. táblázat mutatja, hogy három főkomponens együtt a teljes varianciát magyarázza (az első 79,26%-ot, a második 18,45%-ot, a harmadik csupán 2,29%-ot). Csak az első két főkomponenst tartjuk meg, mert ezek sajátértéke 1-nél nagyobb. Két főkomponenssel dolgozunk tovább, ez azt jelenti, hogy a négy diák eredményeinek elemzése során a 13 tantárgyat jól reprezentálhatjuk 2 mérőszámmal.
2.3. táblázat. A kovariancia mátrix sajátértékei
A kovariancia mátrix ›" = 16,91 és ›? = 3,94 sajátértékhez tartozó (a11 , a12 , … , a1,13 ) és (a 21 , a 22 , … , a 2,13 ) sajátvektorainak koordinátái a 2.4. táblázatból olvashatók le: ˜" =
""
˜? =
?"
∙ ”" + "? ∙ ”? + ⋯ + ","L ∙ ”"L = −0,286279 ∙ ”" − 0,286279 ∙ ”? + ⋯ − 0,173058 ∙ ”"L , ∙ ”" + ?? ∙ ”? + ⋯ + ?,"L ∙ ”"L = 0,253671 ∙ ”" + 0,253671 ∙ ”? + ⋯ − 0,315094 ∙ ”"L.
Az egyes főkomponensekhez tartozó sajtvektorok koordinátái azt mutatják, hogy az eredeti változók mekkora mértékben járulnak hozzá az egyes főkomponensekhez. A 2.5. táblázat a főkomponensek és változók közötti korreláció, más néven faktorsúlyok („factor loadings”) értékeit mutatja. Az egyes változók a főkomponensekhez való relatív hozzájárulását mutatják. Ebből megállapíthatjuk, hogy az első főkomponenshez a Var5-Var10 változók (reál tárgyak matematikától informatikáig) jelentős mértékben, pozitívan, a humán és készségtárgyak szintén jelentősen, de negatívan járulnak hozzá. Ezek alapján az első főkomponens azt jelenti, hogy milyen nagy a reál illetve humán és készségtárgyak tárgyak iránti fogékonyság közötti különbség. A második faktor nehezen értelmezhető, mert közepesen erős pozitív kapcsolatban áll a Var1-Var4 (humán tárgyak) és Var9 (földrajz) változókkal, viszont erős negatív kapcsolatban van a Var11 (ének) és Var13 (testnevelés), továbbá közepesen erős negatív kapcsolatban a Var8 (biológia), Var10 (informatika) és Var12 (rajz) változókkal. Azt mutatja meg, hogy mekkora a különbség a humán tárgyak és földrajz tantárgycsoport, valamint a készségtárgyak, biológia, és informatika csoport eredményei között.
100
2.4. táblázat. A kovariancia-mátrix sajátvektorai
2.5. táblázat. A főkomponensek és a változók közötti korreláció értékei, más néven faktorsúlyok (a számítás a kovariancia-mátrixon alapul)
2.6. táblázat. A változók faktor-koordinátái (a számítás a korrelációs mátrixon alapul)
A 2.6. táblázatban a változók faktor-koordinátái láthatók, azaz a főkomponensek által alkotott új bázisban lévő koordináták: ”" = −1,1772 ∙ ˜" + 0,5032 ∙ ˜? ”? = −1,1772 ∙ ˜" + 0,5032 ∙ ˜? ⋮
”"L = −0,7116 ∙ ˜" − 0,6251 ∙ ˜?
A faktor-koordináták 2 faktor esetén egy kétdimenziós, 3 faktor esetén akár két- vagy háromdimenziós ábrázolással jó szemléltethetők (2.1. ábra). A rádiuszvektorok egymással bezárt szögének koszinusza egyenesen arányos a vektorokhoz rendelt tulajdonságok közötti korrelációval. Tehát minél kisebb a két helyvektor által bezárt szög, annál nagyobb a korreláció, az egymásra merőleges vektorokhoz rendelt tulajdonságok közötti korreláció nulla, a 180o-os szöget bezárók között pedig –1. A 90o-hoz közeli hegyes szögek esetén gyenge pozitív, a 90o-ot csak kicsit meghaladó tompaszögek esetén gyenge negatív, a 180o-hoz közeli tompaszögek esetén erős negatív korrelációról beszélünk. Példánk adatait elemezve jól látható, hogy a Var5-Var10 változók (reál tárgyak), illetve a többi változó élesen elkülönülnek egymástól. Sőt, a bal oldali csoportot esetleg két részre is oszthatjuk: Var2-Var4 (humán tárgyak), illetve Var11-Var13 (készségtárgyak). A négy tanuló eredményeit tekintve reál tárgyak közül legszorosabb korrelációban a Var8 és Var10 (biológia és informatika), a humán tárgyak közül a Var2 és Var4 (magyar nyelvtan és idegen nyelv) változók állnak. Szinte semmilyen kapcsolat nincs a Var3 és Var11 (történelem és ének) változók között, hiszen a változókat megjelenítő pontokba mutató vektorok közel merőlegesek egymásra. A Var9 és Var12, valamint
102 Var2 és Var8, Var2 és Var10, Var4 és Var8, Var4 és Var10 változókat ábrázoló pontokba mutató vektorok közel 180o-os szöget zárnak be egymással, azaz ezek a változópárok erős negatív korrelációban vannak.
2.1. ábra. Az 2.6. táblázatban lévő faktor-koordináták grafikus megjelenítése
Ha kovariancia mátrix helyett a korrelációs mátrixból indulunk ki, akkor a korábbi táblázatok értékei mások lesznek, a 2.7. táblázat a változók korrelációs mátrixból számított faktor-koordinátáit mutatja, a 2.2. ábra pedig ezeknek kétdimenziós megjelenítése. A korrelációs mátrixon alapuló számítás esetén a változók körülbelül egy egységkör mentén helyezkednek el (a rádiusz vektorok hossza egységnyi). A körvonaltól való kis eltérést az okozza, hogy elhagytuk a harmadik faktort, így a teljes varianciának csak 97,71%-át magyarázza a két faktor.
2.7. táblázat. A változók korrelációs mátrixból számított faktor-koordinátái
2.2. ábra. A változók korrelációs mátrixból számított faktor-koordinátáinak kétdimenziós ábrázolása
Az egyes mérések (a négy diák) faktor-koordinátáit a 2.8. táblázat mutatja. A reál és humán eredmények között legnagyobb eltérést („Factor1”: első főkomponens oszlopa) Dani produkálta (Case 4, 5,93 faktorkoordináta), méghozzá a reál tárgyakat teljesítette jobban (pozitív a koordináta), legkisebb eltérés András reál és humán jegyei között van (Case 1, -0,40 faktorkoordináta), ő
104 humán tárgyakból egy kicsit jobb (negatív a koordináta). A mérések második faktor-koordinátája azt mutatja, hogy Bence (Case 2) esetében legnagyobb a különbség a humán tárgyak és földrajz tantárgycsoport, valamint a készségtárgyak, biológia, és informatika csoport eredményei között, méghozzá az első tantárgycsoport „javára”. András (Case 1) és Cili (Case 3) a második tantárgycsoport tárgyaiból jobb (közel egyenlő negatív faktorkoordináták). Dani esetében nem sok eltérés van, de az első csoport eredményei egy kicsit jobbak.
2.8. táblázat. A négy diák tanulmányi eredményeinek leírására szolgáló faktor-koordináták a kétfaktoros modellben
Most tekintsünk egy második példát, amelyben kvalitatív (minőségi) ismérvek is vannak. A STATISTICA 11 programcsomag az adatok kvalitatív ismérvek alapján történő különböző csoportosítására is lehetőséget nyújt. 2.2. Példa Megkérdeztünk 20 személyt, hogy naponta átlagosan mennyi időt (órában) fordít a következő dolgokra: Var1: pénzkereső tevékenység, Var2: utazás, Var3: házimunka, főzés, bevásárlás, Var4: gyermekkel töltött idő, Var5: pihenés, szórakozás, sport, Var6: alvás. A kutatásba bevont személyek lakóhely (ország) és nem szerinti megoszlását is figyelembe vettük: Var7: nem (nő vagy férfi), Var8: ország (H: Magyarország, D: Németország). A kapott válaszokat a 2.9. táblázat tartalmazza.
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20.
Var1
Var2
Var3
Var4
Var5
Var6
Var7
Var8
8 8 7 8 8 9 10 9 8 10 7 8 6 6 7 8 7 8 9 8
1,5 1 1 1,5 1 1 0,5 1,5 1,5 1 1,5 0,5 1,5 1,5 1 1 1 2,5 1 1,5
3 4 4,5 5 4 1 0,5 1 2 0,5 2,5 3 4,5 3 2,5 1,5 2 0,5 0,5 2
2,5 3 3 3 2,5 1 0 0,5 1,5 0,5 1,5 2 3 2,5 2,5 1,5 1,5 0,5 0,5 1
2 1,5 2,5 0,5 2 5,5 7 7 5 6,5 4,5 3,5 2 4 3,5 5 6,5 7 6 5,5
7 6,5 6 6 6,5 6,5 6 5 6 5,5 7 7 7 7 7,5 7 6 5,5 7 6
nő nő nő nő nő ffi ffi ffi ffi ffi nő nő nő nő nő ffi ffi ffi ffi ffi
H H H H H H H H H H D D D D D D D D D D
2.9. táblázat. Különböző tevékenységekre fordított idő (óra) 20 megkérdezett személy esetén
2.10. táblázat. A korrelációs mátrix sajátértékei
Először az összes adatot vizsgáljuk ország és nem szerinti csoportosítás nélkül. Ilyenkor a „Select variables for analysis, supplementary, active case, and group” első menüpontban a következőképpen választjuk a változókat:
106 „variables for analysis”: Var1-Var6, „supplementary variables”: üresen marad, „active cases variable”: üresen marad, „grouping variable”: üresen marad. A korrelációs mátrix sajátértékeit lekérve látjuk, hogy két egynél nagyobb sajátértékű főkomponens van, ezek együttesen az összes variancia 81,12%-át magyarázzák (2.10. táblázat). Ebből kiindulva két főkomponenst választunk. Megjegyezzük, hogy a táblázat alapján ellenőrizhető az, amit az elméleti tárgyalás során már említettünk: a sajátértékek összege a változók számával egyenlő, azaz 3,625053 + 1,242172 + ⋯ + 0,035168 = 6 (a nyolc változóból ebben az esetben csak hattal dolgozunk).
2.11. táblázat. A változók faktor-koordinátái (az összes adatot figyelembe véve)
2.3. ábra. A változók faktor-koordinátáinak ábrázolása (az összes adatot figyelembe véve)
A két főkomponens által kifeszített új bázisban a változók faktorkoordinátáit (az összes adatot figyelembe véve) a 2.11. táblázat mutatja. Az elemzés a 2.3. ábra alapján könnyebb. Láthatjuk, hogy legszorosabb korreláció a Var3 és Var4 (házimunka és gyerekkel töltött idő) változók között van, és ezek szinte semmilyen kapcsolatot nem mutatnak Var2-vel (utazással töltött idő). Var3 és Var4-nek Var5-tel (pihenés, szórakozás, sport) való korrelációja -1-hez közeli, és a Var1-gyel (pénzkereső tevékenység) való korrelációja is erős negatív kapcsolatot mutat. Tehát a vizsgált adatok szerint minél több időt tölt valaki pihenéssel, szórakozással, annál kevesebb időt fordít a házimunkára és gyerekre. A pénzkereséssel töltött sok idő is gyakran vonja maga után a kevesebb házimunkára és gyerekre fordított időt, de ez a negatív kapcsolat nem annyira egyértelmű, mint az előbbi (vannak, akik mindhárom területen sok időt fektetnek be, illetve olyanok is, akik keveset). A Var5 (pihenés, szórakozás, sport) és Var6 (alvás) közepesen erős negatív kapcsolatban van egymással, ami azt jelenti, hogy a pihenés, szórakozás, sport ideje sokszor az alvás idejének rovására megy. A Var1 és Var6-ba mutató vektorok szöge csak egy kicsit haladja meg a 90 fokot, azaz a pénzkereső tevékenységre és alvásra fordított idő csak nagyon gyenge negatív korrelációban van egymással. A Var6 közepesen erős pozitív kapcsolatban van Var3-mal és Var4-gyel, azaz akik házimunkával és gyerekkel több időt töltenek, azok kicsit többet is alszanak, mint azok, akik házimunka és gyerek helyett több pihenéssel, szórakozással és sporttal töltik az időt. Ha csak a magyarokat vizsgáljuk (nőket és férfiakat vegyesen), akkor az első menüpontban a következőképpen választjuk a változókat: „variables for analysis”: Var1-Var6, „supplementary variables”: -, „active cases variable”: Var8, „grouping variable”: Var7. A „code for active cases” melletti üres mezőbe be kell írni, hogy: H. Ismét két főkomponens adódik, amelyek a változók varianciájának 87,69%-át magyarázzák. A változók faktor koordinátáit a 2.4. ábra mutatja. Nincs jelentős különbség az összes adat elemzéséhez képest. A pénzkereséssel töltött idő (Var1) jobban a háztartás és gyerekkel töltött idő rovására megy, az utazással töltött idő (Var2) és a pihenés, szórakozás, sport (Var5) ideje gyenge negatív kapcsolatban áll az előbbi gyenge pozitív kapcsolat helyett.
108
2.4. ábra. A változók faktor-koordinátáinak ábrázolása (magyarokra vonatkozó adatok)
Az összes nőt vizsgálva (magyarokat és németeket vegyesen) az első menüpontban az utolsó két változócsoport az előbbihez képest helyet cserél: „active cases variable”: Var7, „grouping variable”: Var8, és „code for active cases”: nő. Ebben az esetben is két főkomponens adódik, ezek együttesen az összes variancia 79,41%-át magyarázzák. Az általuk kifeszített új bázisban a változók faktor koordinátáit a 2.5. ábra mutatja. Itt jelentős eltérések vannak az összes adatra kapott eredményhez képest. Csak a legszembetűnőbbeket kiemelve: a Var3 és Var4 (házimunka és gyerekkel töltött idő) változók erős negatív korrelációban vannak a Var5 (pihenés, szórakozás, sport) és Var6 (alvás) változókkal. A Var1 (pénzkereséssel töltött idő) és Var4 (gyerekkel töltött idő) korrelálatlanok (merőleges vektorok), illetve a Var1 (pénzkereséssel töltött idő) és Var3 (házimunkával töltött idő) nagyon gyenge pozitív korrelációt mutat. A Var1 és Var5, valamint Var1 és Var6 között közepesen erős negatív kapcsolat van. Az összes férfit vizsgálva (magyarokat és németeket vegyesen) pedig „active cases variable”: Var7, „grouping variable”: Var8, és „code for active cases”:ffi.
2.5. ábra. A változók faktor-koordinátáinak ábrázolása (az összes nőre vonatkozó adat)
Az összes férfi adataira is két főkomponens adódik, amelyek együttesen az összes variancia 81,99%-át magyarázzák. Az általuk kifeszített új bázisban a változók faktor koordinátáit a 2.6. ábra mutatja. Az összes férfi adatainak elemzése során kapott faktor-koordináták jelentősen eltérnek a korábbi eredményektől. Az eddigiekben a Var1 és Var6 között közepesen erős negatív kapcsolatot láttunk, itt korrelálatlanság mutatkozik. A Var1 és Var5 gyenge pozitív kapcsolat van (szemben a nőknél tapasztalt közepesen erős negatív kapcsolattal). A 2.5. ábra és 2.6. ábra az összes adatat két diszjunkt részhalmazára készült, amelyek egyesítésével előáll a teljes adathalmaz. Láthatjuk, hogy a kapott faktor-koordinátákból nem tudjuk előállítani az összes adat felhasználásával készült faktor-koordinátákat (2.1. ábra). Tehát a főkomponens-analízis nem kommutatív eljárás.
110
2.6. ábra. A változók faktor-koordinátáinak ábrázolása (az összes férfira vonatkozó adat)
Ha három főkomponens adódik, a leolvasás elve akkor is ugyanez. A térbeli vektor ábra síkmetszeteit tudjuk a programmal megjeleníteni, és ezeket kell elemezni. A 2.2. példa adatai közül most vizsgáljuk a német nőket. Ekkor a táblázat programba való betöltésekor csak a németek adatainak sorait kell kiválasztani, majd a „Select variables for analysis, supplementary, active case, and group” menüpontban „active cases variable”: Var7, „grouping variable”: Var8, és „code for active cases”: nő. A kapott sajátértékeket az 2.11. táblázat mutatja, látható, hogy három főkomponenst az adatok variabilitásának 97%-át magyarázza. A főkomponensek által kifeszített új, háromdimenziós bázisban a változók faktor-koordinátáit a 2.12. táblázat láthatjuk.
2.11. táblázat. A korrelációs mátrix sajátértékei (a német nőkre vonatkozó adatokat figyelembe véve)
. 2.12. táblázat. A változók faktor-koordinátái a háromdimenziós modellben (német nőkre vonatkozó adatok)
A faktor-koordináták ábrázolása három főkomponens esetén csak térbeli koordináta-rendszerben lenne lehetséges. A STATISTICA programcsomag segítségével ennek vetületeit (Factor1-Factor2; Factor1-Factor3; Factor2Factor3) tudjuk lekérni (2.7. ábra – 2.9. ábra). A változók közötti korreláció szorosságát ebben az esetben is a változókhoz tartozó vektorok által bezárt szögből tudjuk leolvasni, azonban a vetületekből a térbeli vektorábrát nagyon nehéz elképzelni.
2.7. ábra. A faktor-koordináták ábrázolása Factor1-Factor2 koordináta-rendszerben
Ha 3-nál több főkomponens adódik, akkor az eredmény értelmezése csak azon ritka esetekben lehetséges, ha a változók csupán egy-két faktorral mutatnak szoros kapcsolatot (ezt a „factor-variable correlations” táblázatból lehet leolvasni) , így a főkomponenseknek jelentést tudunk adni. Máskülönben a
112 kapott főkomponensekkel további vizsgálatokat kell végezni (pl. cluster analízis), vagy a főkomponens-analízis helyett más statisztikai eljárásokkal kell próbálkozni.
2.8. ábra. A faktor-koordináták ábrázolása Factor1-Factor3 koordináta-rendszerben
2.9. ábra. A faktor-koordináták ábrázolása Factor2-Factor3 koordináta-rendszerben
2.5. A főkomponens-analízis alkalmazhatóságának vizsgálata A főkomponens-analízis akkor alkalmazható, ha a változók nem korrelálatlanok. A változók normál eloszlása nem feltétel, de a nagyon ferde eloszlás ronthatja az eredményt. Az outliereket (extrém értékek) ki kell hagyni az elemzésből. A változók közötti korrelációnak, illetve esetleges korrelálatlanságának legegyszerűbb mérőszáma a korrelációs mátrix determinánsának értéke. Ha a változók korrelálatlanok, akkor a determináns értéke 1. Minél jobban távolodunk ettől az esettől, azaz minél nagyobb az összefüggés az adatok között, a korrelációs mátrix determinánsának abszolút értéke annál jobban közelít nullához. Megjegyezzük, hogy ez a vizsgálat meglehetősen szubjektív, nem használunk egyértelmű küszöbszámot, ami segítségével a döntést meghozzuk. Létezik ugyan egy khi-négyzet próba (Farrar-Glauber-féle vizsgálat), amelylyel ezt a tesztet el lehet végezni, de a gyakorlatban ez a módszer nem nagyon terjedt el. Gyakran megelégszünk csupán a korrelációs mátrix értékeinek vizsgálatával. Akkor mondhatjuk, hogy megfelelő a korreláció mértéke a változók között, ha minél több korreláció értéke magasabb, mint 0,3. A főkomponens-analízis adathalmazra való alkalmasságának mérése többek között az ún. Cronbach-alfa értékének kiszámításával is történhet: œ=
Q
Q
∙ 1− "
∑} Ÿ 3 O-k žŸ O-k ž
,
ahol ! a mérések számát, ”¡ a változókat (itemeket), ” pedig a változók által felvett értékeket (a mérési eredményeket) jelenti. Az előbbi képlet átírható a következő alakra is: Q∙kᢣ
œ = "% Q
" ∙kᢣ
,
melyben ! a mérések száma, áiP pedig a változók páronkénti korrelációjának átlaga. Ez a mérőszám alulról tart 1-hez, és minél jobban megközelíti, a változók annál nagyobb mértékben korrelálnak egymással. A változók közötti korreláció azért fontos, mert a főkomponens-analízis során nagyszámú, korreláló változókból kisebb számú mesterséges, korrelálatlan változókat (főkomponenseket) képezünk, amelyek varianciája maximális. Tehát a Cronbach-alfa minél jobban megközelíti az 1-et, főkomponens-analízis szempontjából annál jobban megbízható az adathalmaz. Ha a mérések száma kevés, vagy az átlagos korreláció alacsony értéket vesz fel, akkor a Cronbach-alfa értéke csökken. Egyértelmű, hogy ha a változók közötti korreláció alacsony, akkor abból arra következtethetünk, hogy az adathalmazt nem lehet kevés számú főkomponenssel jellemezni. A mérések számának növelésével, illetve egyes elemek kihagyásával az alfa tovább javítható. Ez utóbbiak nem illeszkednek a rendszerünkbe, vagy esetleg hibás mérési eredmények (kérdőíveknél félreértelmezett kérdé-
114 sek), melyek elhagyásával a rendszer stabilitása növekszik. A Cronbach-alfa nagyon népszerű mérőszám, azzal azonban vigyáznunk kell, hogy ha az értéke túl magas, abból nem következik az, hogy a változók egyetlen „közös jelenséget” mérnek, vagyis egyetlen főkomponenssel jellemezhetők. Az adathalmaz „egydimenziósságát” másképp kell bizonyítani. A STATISTICA programcsomagban a Cronbach-alfa értékét a „Statistics”, „Multivariate Exploratory Techniques”, „Reliability/Item Analysis” menüpontban találjuk. A 2.1. Példára számított Cronbach-alfa érték 0,7865, ez a 2.13. táblázat fejlécében látható. A táblázatból az is leolvasható, hogy mi történik, ha egy változót kiveszünk a modellből, vagyis hogyan változik a mérési eredmények átlaga, a varianciája, standard deviációja, korrelációja, illetve a Cronbach-alfa értéke, ha az adott változót eltávolítjuk. Látjuk például, hogy a Var2 (utazásra fordított idő) és Var4 (gyerekkel töltött idő) változók eltávolítása tovább növelné az alfát, de a növekedés mértéke nem jelentős, így megfontolandó, hogy érdemes-e eltávolítani ezeket a változókat.
2.13. táblázat. A főkomponens-analízis megbízhatóságának vizsgálata Cronbach-alfa segítségével.
Egy másik mutatószám a ¤ (theta), amely a főkomponens-analízis által meghatározott első főkomponens megbízhatósági mutatója: ¤=Q
Q
"
∙ 1 − ¥ , ¤ ∈ −∞; ∞ , " 3
ahol ! a mérések számát, ›" pedig az első főkomponens sajátértéke (ami egyben a varianciája). A 2.1. Példa adataira (ld. 2.3. táblázat) a ¤ megbízhatósági mutató: ?$
¤ = ?$
"
"
∙ 1 − "Š,d" = 1,052 ∙ 0,9409 = 0,9904.
A theta megbízhatósági mutatószám előnye a Cronbach-alfával szemben az, hogy a főkomponens-analízis az itemeket jelentőségüknek megfelelően súlyozva veszi figyelembe.
3. Faktoranalízis A faktoranalízis széles körben elterjedt adatelemzési módszer, amely nagyon hasznos a többváltozós adatok szerkezetének vizsgálatában. Az eljárás az adathalmaz mögött meghúzódó háttér-összefüggéseket tételez fel. A „faktor” a „háttérváltozót” jelenti, tehát a faktoranalízis matematikai elemzési módszer valamely többváltozós adathalmaz háttérváltozóinak feltárására, majd ez alapján a változók csoportosítására és redukciójára. A faktoranalízis alapjait Charles Spearman (1904) fejtette ki, munkája alapjául Karl Pearson (1901) korrelációszámítással kapcsolatos gondolatai szolgáltak. A XX. század első felében kizárólag pszichológiai kérdőívek, tesztek adatainak feldolgozására használták, majd 1960-tól elkezdődtek az eljárás közgazdasági alkalmazásai is. Az elektronikus számítógépek megjelenése különösen nagy fellendülést hozott a faktoranalízis módszereinek kutatásában. A faktoranalízis a változók páronkénti kovarianciájából indul ki, és olyan korrelálatlan faktorokat keres, melyek hatásai összeadódnak, illetve valamilyen lineáris kombinációjukkal ki tudjuk fejezni az „egyszerű” változókat. A faktorok száma akkor optimális, ha a lehető legkevesebb, de ez a minimális számú faktor még jól reprezentálja a páronkénti kovarianciák rendszerét. A faktorsúlyokból (a faktorok együtthatói a lineáris kombinációkban) következtethetünk arra, hogy mennyire szoros a lineáris kapcsolat egy adott „egyszerű” változó és egy faktor között. Minél nagyobb egy faktorsúly, annál szorosabb a lineáris kapcsolat a megfelelő faktor-változó pár, azaz a háttér-összefüggés (faktor) és a résztartalom között. Fontos különbség a főkomponens-analízis és a faktoranalízis között, hogy faktoranalízis során a faktorok jelentését is keressük. Összefoglalva tehát a módszert olyan esetekben lehet alkalmazni, amikor a sokaságot nagyszámú változóval jellemezzük, és feltételezhetően a változóink egymást átfedő (koherens) információt hordoznak. Az elemzés egyik célja éppen az, hogy a közös információt egymástól korrelálatlan faktorokkal jellemezzük.
3.1. A faktoranalízis matematikai modellje A faktoranalízis célja, hogy a vizsgált változók közötti korrelációk elemzésével feltárjuk a háttérben húzód látens struktúrát. Olyan korrelálatlan faktorokat keresünk, amelyek lineáris kombinációi segítségével ezeket a korrelációkat minél jobban vissza tudjuk adni. Az eljárás alkalmazásához, a fogalmak tisztázásához a matematikai modellt is meg kell értenünk. Először – az egyszerűség kedvéért - az egyfaktoros modell tárgyaljuk. Spearman különböző adatok közötti korrelációt vizsgálva észrevette, hogy a
116 korrelációs mátrixok bármely két sorában lévő értékek aránya körülbelül mindig ugyanakkora. Ezt az összefüggést a következő egyszerű matematikai modellel magyarázta: ahol
”¡ =
¡
∙ t + ¡,
”¡ : az i-edik sztenderdizált változó (tehát az ”¡ által felvett értékek átlaga 0 és szórása 1), t : egy faktor (háttér-változó), szintén sztenderdizált változó (tehát az által felvett értékek átlaga 0 és szórása 1), : ¡ az ”¡ változó faktorsúlya (konstans), ¡ : hiba (ennyi az eltérés ”¡ és ¡ ∙ t között), az ¡ értékek átlaga 0.
Ezt a matematikai modellt használva ”¡ varianciája a következőképpen írható fel (itt is megemlítjük, hogy a pontos matematikai indoklás mélyebb ismereteket igényel, azon alapul, hogy független változók esetén az összeg varianciája négyzetes súlyokkal képződik): ”¡ =
¡
∙t+
¡
=
¡
∙t +
¡
=
? ¡
∙
t +
¡
,
ahol ¡ konstans, t és ¡ egymástól független változók. Felhasználva, hogy ”¡ és t sztenderdizált változók, tehát ”¡ = 1 ; t = 1: 1=
? ¡
+
¡
.
Ez az egyenlet azt mutatja, hogy ”¡ varianciája két részből tevődik össze: a faktorsúly ( ¡ ) négyzete a varianciának az a része, amelyet a faktor magyaráz, ¡ pedig a varianciának az a része, amely független a faktortól. Tehát a faktorsúly négyzetével az eredeti változók szórásának túlnyomó része megmagyarázható. Spearman az egyfaktoros modellből először kétfaktoros, majd későbbi kutatásai során többfaktoros modellt írt fel. A faktoranalízis általános (többfaktoros) modellje: ”¡ = ¡" ∙ t" + ¡? ∙ t? + ⋯ + ¡g ∙ tg + ¡ , ahol ”¡ : az i-edik sztenderdizált változó (tehát az ”¡ által felvett értékek átlaga 0 és szórása 1), t" , t? , ⋯ , tg : m darab korrelálatlan közös faktor (háttér-változó), szintén sztenderdizált változók (tehát az általuk felvett értékek átlaga 0 és szórásuk 1), , ¡" ¡? , ⋯ , ¡g : az ”¡ változó faktorsúlyai (konstansok), : hiba (ennyi az eltérés ”¡ és ¡" ∙ t" + ¡? ∙ t? + ⋯ + ¡g ∙ tg kö¡ zött), az ¡ értékek átlaga 0.
A többfaktoros modell esetén ”¡ varianciája a következőképpen írható fel: ”¡ =
? ¡"
t" +
∙
? ¡?
t? + ⋯ +
∙
? ¡g
tg +
∙
¡
Felhasználva, hogy ”¡ és t" , t? , ⋯ , tg sztenderdizált változók, tehát ”¡ = 1; t™ = 1, š = 1,2, ⋯ , § : 1=
? ¡"
+
? ¡?
+ ⋯+
? ¡g
+
¡
.
Tehát ”¡ varianciája két részből tevődik össze: ? ? ? 1. Az ¡" + ¡? + ⋯ + ¡g négyzetösszeg a faktorsúlyok négyzetösszege, neve kommunalitás. Ez a varianciának az a része, amelyet a faktorok magyaráznak. Ha megszorozzuk százzal, akkor megkapjuk, hogy a bevezetett faktorok az eredeti változó szórásának hány százalékát magyarázzák. 2. A ¡ pedig a varianciának az a része, amely független a közös faktoroktól, ezt ”¡ specifikus hatásának is hívják. A fenti egyenlet azt mutatja, hogy a kommunalitással az eredeti változók szórásának túlnyomó része megmagyarázható. Levezethető, hogy ebben a modellben az ”¡ és ”™ közötti korreláció: ¡™
=
¡"
∙
™"
+
¡?
∙
™?
+ ⋯+
¡g
∙
™g .
Két mérési eredmény csak akkor korrelál erősen egymással, ha az azonos faktorokban vannak magas faktorsúlyaik, valamint −1 ≤ ¡™ ≤ 1 , mivel a kommunalitás értéke nem haladhatja meg az 1-et.
3.2. A faktoranalízis menete A faktoranalízis is ugyanolyan adatokból indul ki, mint a főkomponensanalízis: vizsgálatunk tárgya egy p változóból és n db mérésből álló adatbázis, ahogy azt a 3.1. táblázat is mutatja: 1 2 ⋮ !
”"
”?
?"
??
""
⋮
Q"
"?
⋮
Q?
⋯ ⋯ ⋯ ⋱ ⋯
”•
"•
?•
⋮
Q•
3.1. táblázat. A faktoranalízis kiinduló táblázata
118 A faktoranalízis lépései: I. Megvizsgáljuk a módszer alkalmazhatóságát. II. 1. Meghatározzuk a faktorok számát. 2. Meghatározzuk az ¡™ faktorsúlyokat. 3. A faktorokat forgatjuk (amennyiben szükség van rotációra). III. Meggyőződünk a modell megbízhatóságáról. IV. A faktorértékeket kiszámítjuk. Az alábbiakban egy nagyon leegyszerűsített, konkrét példán keresztül részletesen tárgyaljuk ezeket a lépéseket. A valóságban az alkalmazhatósághoz több adatra lenne szükség (ld. később „minta elemszáma/változók száma” arány). 3.1. Példa Azt vizsgáljuk, hogy az egyetemi hallgatók miért vették fel az egyik szabadon választható tantárgyat. A megkérdezett 10 személy 1–5 pontskálán nyilatkozott arról, hogy a megadott szempontok milyen mértékben befolyásolták a tantárgy választását. Ezek a szempontok lesznek a kiértékelés során a fenti matematikai levezetésben szereplő X1-X6 változók, amelyeket a STATISTICA 11 programcsomag jelöléseihez igazodva Var1-Var6 változóknak fogunk nevezni. Var1: a későbbi tanulmányokban jól hasznosítható ismereteket nyújt, Var2: a szakmai gyakorlat szempontjából fontos, Var3: sok kreditet lehet vele szerezni, Var4: a tanár az órákon érthetően magyaráz, Var5: van konzultáció és egyéb tanári segítség, Var6: a számonkérés módja korrekt. Var1 Var2 Var3 Var4 Var5 Var6 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.
2 4 4 3 4 5 4 5 2 3
3 3 3 4 3 4 5 4 2 2
2 4 5 4 4 3 5 3 1 3
4 2 4 2 3 5 4 4 3 2
2 1 3 2 2 4 3 2 3 1
3 2 4 4 4 5 3 3 3 2
3.2. táblázat. A 3.1. Példa adataiból készült táblázat
A példa megoldása során a I. lépéstől (a módszer alkalmazhatóságának vizsgálata) eltekintünk. A faktoranalízis alkalmazhatósági feltételeit a 3.4. fejezetben részletesen tárgyaljuk.
3.2.1. A faktorok számának meghatározása A faktorok száma (m értéke) többféle módon meghatározható, és a különböző eljárások legtöbbször nem ugyanannyi faktort adnak eredményül. A végső döntés szubjektív, és a gyakorlatban az a legfontosabb szempont, hogy a kapott faktorok a lehető legjobban értelmezhetők legyenek. Először az adatok korrelációs mátrixát (3.3. táblázat) érdemes megvizsgálni. Látható, hogy az első három változó (Var1-Var3) és a második három változó (Var4-Var6) viszonylag szorosabb kapcsolatban áll egymással. Ebből arra következtethetünk, hogy két faktorral érdemes dolgozni.
3.3. táblázat. A 3.1. Példa adataiból számított korrelációs mátrix
Ha nagyon sok változó van a példában, akkor a korrelációs mátrix kevésbé áttekinthető, ilyenkor a következő módszerek közül választhatunk. A legszélesebb körben használt eljárás a Kaiser-kritérium (Henry F. Kaiser 1960). Eszerint a faktorok száma legyen a mérési eredmények korrelációs mátrixából kiszámított egynél nagyobb sajátértékek száma, a 3.1. példa esetében 2 (ld. 3.4. táblázat). Ennek vázlatos indoklása ugyanaz, mint főkomponensanalízisnél: az egynél kisebb sajátértékkel rendelkező faktorok kevesebbet magyaráznak az adatok varianciájából, mint az eredeti mérési eredmények.
120
3.4. táblázat. A korrelációs mátrix sajátértékei
Egy másik elterjedt módszer a scree-test („kavics-teszt”), amelyet James McKeen Cattell (1966) használt először. Az elnevezés azon a geológiai hasonlaton alapul, hogy a sziklás lejtő aljába csak a kavicstörmelék gurul le. A scree-test grafikonja az egyes főkomponensek fontosságának csökkenését mutatja (ld. 3.1. ábra). Erre a grafikonra egyes magyar szakirodalmakban a törmelék-grafikon elnevezést olvashatjuk, másutt pedig a könyökábra, és ehhez kapcsolódóan könyökszabály néven szerepel. A scree-test grafikonját a STATISTICA programcsomag „scree plot” menüpontja rajzolja ki. A főkomponensek számát annyinak érdemes választani, ahol a könyökábra elkezd lankásodni, vagyis a görbe meredeksége hirtelen megváltozik, és majdnem egyenesbe fordul át (itt van a grafikon „könyöke”). A könyökszabály alapján olyan faktorok is fontosak lehetnek, amelyek sajátértéke 1 alatt van. Példánkra a könyökábra alapján 3 faktor adódik. Láthatjuk, hogy a bemutatott módszerekkel különböző számú faktort kaptunk. Általánosságban az mondható, hogy a faktorok számának (m) növelése a változók kommunalitásának növekedését eredményezi, azaz a bevezetett faktorok az eredeti változó szórását még nagyobb százalékban magyarázzák. (Megjegyezzük, hogy a kommunalitások a későbbi esetleges faktor-rotáció során viszont nem változnak, erről később szólunk részletesen.) A faktorok számának megválasztásában elsődleges szempont az, hogy jól értelmezhetők legyenek.
3.1. ábra. A scree-test grafikonja
3.2.2. A faktorsúlyok kiszámítása A második lépés a faktorsúlyok kiszámítása, ez még a rotáció előtti állapot. A faktorsúlyok kiszámítása többféleképpen történhet, a programcsomagban 6 lehetőség közül kell kiválasztani az alkalmazott eljárást. A legismertebb módszer az előző fejezetben tárgyalt főkomponens-analízis, mi is ezt használjuk a példában (3.5. táblázat).
3.5. táblázat. Faktorsúlyok (faktor-rotáció nélkül)
122 Mekkora faktorsúlyok tekinthetők lényegesnek? Erre nincs egyértelmű szabály, Sváb János (1978) szerint ezen a téren „egyelőre a józan ész szerinti mérlegelésre vagyunk utalva.” Támpont a korrelációs együtthatók 5%-os szignifikanciaszintje, a szabadságfok a változók száma mínusz 1. A gyakorlatban ez azt jelenti, hogy az abszolút értékben 0,7 feletti faktorsúlyok mindig lényegesnek tekinthetők, de ha magas a változók száma, akkor a 0,5 feletti értékek sem hagyhatók teljesen figyelmen kívül. A táblázat pirossal jelöli az abszolút értékben 0,7-nél, vagy bármely más, előre beállított értéknél nagyobb faktorsúlyokat. A kommunalitások értékét is kiszámítja a program (3.6. táblázat).
3.6. táblázat. Kommunalitások (faktor-rotáció nélkül)
Az eredmény értelmezése a következő: az első változóra egy faktorból ? ? = −0,687718 ? = 0,472955, két faktorból "" + "? = −0,687718 ? + 0,483634 ? = 0,706857 a kommunalitás. Tehát két faktor az első változó szórásának több mint 70 százalékát magyarázza. A többi változóra hasonlóan. Az ? értékek a változók és a faktor közötti korrelációt mutatják. Ha a faktorsúlyok értékei azt mutatják, hogy egy vagy több változó több faktorral is erős, vagy közepesen erős kapcsolatban van, akkor a vizsgált látens struktúra kevésbé áttekinthető. Ilyenkor faktor-rotációval érdemes próbálkozni. A példánkban a 3.5. táblázatból látjuk, hogy első változó mindkét faktorral közepesen erős kapcsolatban van, mi is faktor-rotációt fogunk alkalmazni. ? ""
3.2.3. A faktor-rotáció Gyakran előfordul, hogy a kapott faktorok nehezen értelmezhetők, ilyenkor felmerül, hogy esetleg egy alkalmas elforgatással szemléletesebb jelentést tudunk adni nekik. Ha például a faktorsúlyok között csak 0-hoz közeli, vagy
aránylag nagy értékek fordulnak elő, akkor a változók csoportosíthatók az alapján, hogy melyik faktor melyik változókban játszik fontos szerepet. Szerencsés esetben a változók halmaza akár diszjunkt osztályokra is bontható. A faktor-rotáció során a korábbi t" , t? , ⋯ , tg faktorokat t"© , © t? , ⋯ , tg© faktorokká alakítjuk át. A „forgatás” matematikai értelemben egy bázistranszformáció és az alábbi egyenletekben szereplő ¡™ értékek megválasztását jelenti: t"© =
t?© = tg© =
""
∙ t" +
?"
∙ t" +
g"
∙ t" +
"?
??
∙ t? + ⋯ +
∙ t? + ⋯ +
⋮
g?
∙ t? + ⋯ +
"g
?g
∙ tg
∙ tg
gg
∙ tg
A faktor-rotáció lehet derékszögű vagy ferdeszögű. A derékszögű forgatással kapott új faktorok továbbra sem korrelálnak egymással, míg a ferdeszögű forgatás egymással korreláló faktorokat eredményez. A faktorok forgatását szemlélteti a 3.2. a és b ábra egy egyszerű kétdimenziós példával.
3.2. a és b ábra. A faktor-rotáció szemléltetése
A 3.2. a és b ábra mutatja, hogy az eredeti változók a és b csoportja a rotáció nélkül kapott mindkét faktoron jelentős faktorsúllyal rendelkezik, rotáció után pedig az eredeti változók a csoportja csak az egyik, a b csoportja pedig csak a másik faktoron rendelkezik jelentős faktorsúllyal. A legismertebb derékszögű faktor-rotációs eljárások a varimax, quartimax és equamax forgatás. Általában a varimax rotáció használata ajánlott egy probléma megközelítéséhez. A gondolatmenet Henry F. Kaiser (1958) nevéhez fűződik, lényege az a feltevés, hogy egy j faktor interpretálhatóságát mérni lehet az egyes vál? tozók erre a faktorra vett faktorsúlyai négyzetének (vagyis az "™ ,
124 ? ? ?™ , ⋯ éx •™ -
? nek) a varianciájával. Ha ez a variancia nagy, akkor az ¡™ értékek vagy nullához, vagy egyhez tartanak, ezért a varimax rotáció ezeknek a varianciáknak az összegét maximalizálja minden faktor esetén. Ebből az következik, hogy varimax rotáció után azoknak a változóknak a száma lesz kevesebb, amelyekhez sok faktor szerepel nagy súllyal. Kaiser később úgy módosította egy kicsit ezt az eljárást, hogy mielőtt maximalizálta a négyzetek varianciáját, normalizálta a faktorsúlyokat. Ez a módosított varimax forgatás még jobb eredményt ad, így tehát a varimax rotáció elvégezhető a Kaiser-féle normalizációval, vagy anélkül is. A quartimax forgatás a magyarázó faktorok számát minimalizálja, az equamax pedig az előző két eljárás keveréke. A STATISTICA programcsomagban választható mindegyik normalizációval, vagy anélkül is. Néha akkor kapjuk a legegyszerűbben interpretálható faktorokat és a lehető legegyszerűbb faktorsúlyokat, ha nem ragaszkodunk a korrelálatlan faktorokhoz. Ilyen esetekben a ferdeszögű forgatás jobb eredményt adhat, mint a derékszögű. A ferdeszögű forgatásnak is számos eljárása ismert, pl. direct oblimin, promax, stb. forgatások. Közülük a promax forgatást érdemes kiemelni, amely nagyon nagy táblázatok esetén használatos.
Összefoglalva: bármelyik típusú forgatást is használjuk, az a cél, hogy az új faktorok faktorsúlyai vagy közel legyenek nullához, vagy nagyon távol tőle, ugyanis • ha az ¡™ érték nullához közeli, akkor az ”¡ változó nem kapcsolódik szorosan az t™ faktorhoz, • ha az ¡™ magas (pozitív vagy negatív) érték, akkor az ”¡ változót erősen meghatározza az t™ faktor. Ha minden egyes mérési eredmény csak néhány faktorral van szoros kapcsolatban, akkor könnyebb meghatározni a faktorokat. A forgatásokból adódóan a faktoranalízis modelljének végtelen számú alternatív megoldása van. A példánkban a varimax forgatást alkalmaztuk, az így kapott faktorsúlyok a 3.7. táblázatban láthatók. A faktorsúlyok mutatják az egyes változók faktorokhoz való relatív hozzájárulását, a változók és a faktor közötti korrelációt. A 3.7. táblázatban lévő rotált faktorsúlyok megerősítik a korrelációs mátrix alapján felállított hipotézisünket, mely szerint kétfaktoros modell illeszkedik az adatokra. A Var1-Var3 változók a második, a Var4-Var6 változók az első faktornál szerepelnek nagyobb súllyal. A 3.7. táblázat utolsó két sorában a faktorok varianciái („expl. var.”) és a magyarázott varianciahányadok („prp. var.”) szerepelnek. Az első faktor varianciája 2,58, míg a második faktoré 2,06. Az első faktor a varianciahányad 43%-át magyarázza, míg a második a 34%-át. Tehát a két faktor összesen az összvariancia kb. 77%-át magyarázza.
3.7. táblázat. Faktorsúlyok varimax rotáció után
A faktorsúlyok legalább kétfaktoros modell esetén kétdimenziós, legalább háromfaktoros modell esetén két- vagy háromdimenziós ábrával is szemléltethetők. Példánkban két faktorral dolgoztunk, a faktorsúlyok kétdimenziós ábrázolását a 3.3. ábra mutatja.
3.3. ábra. A faktorsúlyok ábrázolása két faktor által kifeszített rendszerben
126 A faktor-rotáció után kapott kommunalitásokat a 3.8. táblázat tartalmazza. Látható, hogy ha kétfaktoros modellel dolgozunk (második oszlop adatai), akkor a faktorok a legjobban a Var5-ös változó szórását, legkevésbé pedig a Var1 és Var6-os változó szórását őrizték meg, hiszen ezek kommunalitása a legnagyobb, illetve a legkisebb. Mindez arra utal, hogy a két faktor a Var5 változóból származó információt őrizte meg a leginkább, a Var1 és Var6-ból származót pedig a legkevésbé. A faktorokat a faktor-rotáció után kapott faktorsúlyok alapján (3.7. táblázat) a következőképpen nevezhetjük el: mivel az első három változó a második faktorral mutat szorosabb kapcsolatot, így a második faktor a tantárgyi elégedettségi faktor, míg az első faktor - amely a második három változóval mutat szorosabb kapcsolatot – tanárral való elégedettségi faktor.
3.8. táblázat. Kommunalitások faktor-rotáció után
3.2.4. A faktoranalízis megbízhatóságának vizsgálata A modell megbízhatóságát a reziduális korrelációs mátrix segítségével vizsgálhatjuk. Ezt a mátrixot úgy kapjuk, hogy a mérési adatokból számított korrelációs mátrixból kivonjuk a modellel alapján becsült adatokból számított korrelációs mátrixot. (A STATISTICA programcsomagban az „Explained variance” címkében lévő „Reproduced/residual corrs.” gombra kattintva kapjuk.) Példánk esetén a reziduális korrelációs mátrixot a 3.9. táblázat mutatja. Ha tökéletes lenne az illeszkedés, akkor ez a különbség mátrix diagonális mátrix lenne. Ha a kapott mátrix jelentősen eltér a diagonál-mátrixtól, akkor a modell nem megbízható. A reziduális korrelációs mátrix értékei úgy értelmezhetők, hogy azoknak a korrelációknak az értékei, amelyek az adott modellel nem reprodukálhatók. Természetesen a mátrix főátlójának elemei is tartalmazzák azt a szórást, amelyet nem lehet a modellel magyarázni. Úgy számíthatók ki, hogy négyzetgyök alatt 1 mínusz a változó adott faktorokhoz tartozó kommunalitása (ne feledjük, hogy egy változó kommunalitása az a variancia, ami az adott faktorokkal magyarázható). Ha a modell jól reprodukálja a mérési
eredményeket, akkor a reziduális korrelációs mátrix főátlón kívüli értékei között nincs 0,1-nél lényegesen nagyobb, illetve -0,1-nél lényegesen kisebb. A mátrixban lévő 0,1-nél nagyobb és -0,1-nél kisebb értékeket a program pirossal jelöli. Esetünkben néhány érték egy kissé eltér ettől az intervallumtól. Ehhez hozzáadva azt a tényt, hogy a példánkban két faktor a teljes variancia 77%-át magyarázza (ld. kumulatív sajátértékek táblázata), mondhatjuk, hogy a modell megbízható.
3.9. táblázat. Reziduális korrelációs mátrix
Ha a „maximum likelihood factors” módszerrel végezzük a faktoranalízist, akkor a „goodness of fit test” gombra is lehet klikkelni (mi a példánkban főkomponens-analízissel csináltuk, nálunk nem „él” ez a gomb). Az illeszkedési teszt egy jobboldali khi-négyzet próba, amely abból a hipotézisből indul ki, hogy az összes maradék korreláció nulla, vagyis a reziduális korrelációs mátrix nem diagonális mátrix. Ha a próba statisztikailag szignifikáns, akkor arra következtethetünk, hogy a reziduális korrelációs mátrix jelentősen eltér a diagonális mátrixtól. Ez azt jelenti, hogy a változók között további olyan jelentős összefüggések vannak, amelyeket a modellel nem reprodukálhatók. Tehát a modell nem illeszkedik megfelelően a mérési eredményekre. Egy példa a khi-négyzet próba alkalmazására: ha a khi-négyzet próbastatisztika értéke a mintára 5,27, a szabadságfokok száma pedig 4, és a próbastatisztikához az adott szabadsági fok esetén p=0,261 valószínűség tartozik, akkor mivel p>0,05, így a modell jól illeszkedik az adatokra.
3.2.5. A faktorértékek kiszámítása A faktoranalízis utolsó lépése a faktorértékek kiszámítása. Ezek az egyes mérések t" , t? , ⋯ , tg faktorbeli eredményeit jelentik. Ennek kiszámítására számos módszer létezik. Egyik a főkomponens-analízisen alapuló faktoranalí-
128 zis, de ugyanezt a célt szolgálja a Bartlett-féle eljárás és a regresszión alapuló becslés is. A 3.10. táblázatban a példánk esetében varimax rotáció után kapott faktorértékeket mutatja.
3.10. táblázat. Faktorértékek varimax rotáció után
Láthatjuk, hogy például az első személy az első faktorra (Var4-Var6 itemek, tanárral való elégedettség) magasabb pontszámokat adott, mint a második faktorra (Var1-Var3 itemek, tantárgyi elégedettség). A harmadik személyt kiragadva azt állapíthatjuk meg, hogy ő a két csoport itemjeit körülbelül egyformán pontozta. A többi személyre kapott faktor-koordináták is ezekhez hasonlóan értelmezhetők.
3.3. Egy további példa a faktoranalízis alkalmazására 3.2. Példa Megkértünk 100 ember, hogy értékeljen 6 különböző márkájú gyümölcsös joghurtot 1-től 10-ig terjedő pontozással, 5 jellemző tulajdonság (Var1Var5) szempontjából. A válaszaik átlagolásával kaptuk a 3.11. táblázatot. Var1: íz Var2: sűrűség Var3: összetevők (gyümölcstartalom, zsírtartalom, adalékanyagok, stb.) Var4: csomagolás, design Var5: ár
A megoldás első lépése a korrelációs mátrix sajátértékeinek vizsgálata (3.12. táblázat). Látható, hogy két 1-nél nagyobb sajátérték van, ebből az következik, hogy kétfaktoros modellel próbálkozunk. A scree-test grafikonja (3.4. ábra) is ezt az elképzelésünket támasztja alá, ugyanis a könyökábra a harmadik sajátértéknél kezd hirtelen lankásodni. Var1 Var2 Var3 Var4 Var5 1. 2. 3. 4. 5. 6.
2 3 5 5 3 4
1 7 6 7 2 4
2 4 6 7 3 5
2 3 5 6 7 7
3 5 6 7 8 9
3.11. táblázat. A 3.2. Példa adatai
3.12. táblázat. A korrelációs mátrix sajátértékei
A következő lépés a faktorsúlyok kiszámítása, először nem alkalmazunk rotációt. A programcsomag által alkalmazott eljárásnak a főkomponensanalízist választjuk (3.13. táblázat).
130
3.4. ábra. A scree-test grafikonja
3.13. táblázat. Faktorsúlyok (faktor-rotáció nélkül)
A kapott eredménnyel nem vagyunk elégedettek, emiatt varimax forgatást alkalmaztuk (3.14. táblázat).
3.14. táblázat. Faktorsúlyok varimax rotáció után
Ez az eredmény már jól értelmezhető, de tovább próbálkozunk a különböző típusú forgatásokkal. A legjobban értelmezhető faktorokat a biquartimax forgatás eredményezi (3.15. táblázat).
3.15. táblázat. Faktorsúlyok biquartimax rotáció után
A faktorsúlyok mutatják az egyes változók faktorokhoz való relatív hozzájárulását, a változók és a faktor közötti korrelációt. A 3.15. táblázatban lévő rotált faktorsúlyok megerősítik a korrelációs mátrix alapján felállított hipotézisünket, mely szerint kétfaktoros modell illeszkedik az adatokra. A Var1-Var3 változók az első, a Var4-Var5 változók a második faktornál szerepelnek nagyobb súllyal. A faktorok elnevezése: az első faktor a joghurt minőségi tulajdonságait (íz, sűrűség, összetevők) foglalja magába, ezért minőségi faktornak, a második az ár és design változókkal áll szoros korrelációban, ezt versenyképességi faktornak nevezzük.
132 A 3.15. táblázat utolsó két sorából leolvasható, hogy az első faktor varianciája 2,61, a második faktoré pedig 2,09. Az első faktor a varianciahányad 52%-át, a második a 42%-át tartalmazza. Tehát a két faktorral összesen a teljes variancia kb. 94%-a magyarázható. A faktorsúlyok kétdimenziós ábrával is szemléltethetők (3.5. ábra).
3.5. ábra. A faktorsúlyok ábrázolása két faktor által kifeszített rendszerben
A faktor-rotáció után kapott kommunalitásokat a 3.16. táblázat mutatja. Látható, hogy a kétfaktoros modell mindegyik változó szórását nagyon nagy mértékben megőrizte (ld. második oszlopban lévő kommunalitások), a Var3, Var4, Var5 változók kommunalitása pedig kiugróan magas. Ezek alapján mondhatjuk, hogy a kétfaktoros modell valamennyi változóból származó információt nagyon jól megőrizte, a Var3, Var4, Var5 változókét pedig kiemelkedő mértékben.
3.16. táblázat. Kommunalitások biquartimax rotáció után
A modell megbízhatóságát ebben az esetben is a reziduális korrelációs mátrix segítségével vizsgáljuk (3.17. táblázat).
3.17. táblázat. Reziduális korrelációs mátrix
A reziduális korrelációs mátrix értékei között nincs 0,1-nél lényegesen nagyobb, illetve -0,1-nél lényegesen kisebb, így megállapíthatjuk, hogy a modell jól reprodukálja a mérési eredményeket. (A mátrixban lévő 0,1-nél nagyobb és -0,1-nél kisebb értékeket a program pirossal jelöli, esetünkben egyetlen piros érték sincs.) A 3.18. táblázat a változók biquartimax rotáció utáni faktorértékeit, a 3.19. táblázat pedig a vizsgált termékek biquartimax rotáció utáni faktorértékeit mutatja.
134
3.18. táblázat. A változók faktorértékei biquartimax rotáció után
3.19. táblázat. A vizsgált termékek faktorértékei biquartimax rotáció után
A 3.18. táblázatból ugyanaz olvasható le, amit már eddig is megállapítottunk: az első három változó az első faktorral, a harmadik és negyedik pedig a második faktorral van hozható inkább összefüggésbe. A 3.19. táblázat pedig azt mutatja, hogy az egyes termékeknek mekkorák az új, kétdimenziós koordináta rendszerben (minőség-versenyképesség) a koordinátái. Láthatjuk, hogy például az első vizsgált termék se nem jó minőségű, se nem versenyképes. A második közepes minőségű, viszont nem versenyképes. A többi termékre kapott faktor-koordináták is ezekhez hasonlóan értelmezhetők. A faktorkoordináták összehasonlításából azt látjuk, hogy a felmérés alapján a legjobb minőségű joghurt a negyedik, legrosszabb minőségű az első. Versenyképesség szempontjából legkiemelkedőbb a hatodik, leggyengébb az első.
3.4. A faktoranalízis alkalmazhatóságának tapasztalatok összegzése
feltételei
és
a
3.4.1. Alkalmazhatósági feltételek A kísérletben szereplő változók normális eloszlása követelmény. Szükséges, hogy a teljes mintára közös variancia álljon fenn (homoszkedaszticitás). Követelmény a megfelelően nagy mintanagyság. Minél nagyobb a minta, annál megbízhatóbb faktorokat eredményez az eljárás. Egyes szakirodalmak szerint minimum 50, mások szerint minimum 100 adat szükséges az elemzéshez. Szokás a „minta elemszáma / változók száma” arányról is beszélni, legtöbb forrásban az olvasható, hogy minimum 10-szer több válaszadó legyen, mint változó. Feltétel továbbá a multikollinearitás, ami azt jelenti, hogy a változók között vannak korreláltak. Ilyenkor azt mondjuk, hogy a változók redundáns információt hordoznak. A mögöttes struktúra létét ugyanis csak akkor feltételezhetjük, ha a változók nem csupán sztochasztikus kapcsolatban állnak egymással, hanem minél több változópár korrelál. Kívánatos, hogy minél több korreláció értéke legyen magasabb, mint 0,3. A változók közötti kapcsolat nélkül nem lehetne hasonló változókat találni és azokat egyetlen faktorba tömöríteni. Az is fontos, hogy a változók mögött egy látens struktúra húzódjon meg. A korreláció mértékének, és ezáltal a faktoranalízis alkalmazhatóságának megállapítására többféle módszer ismert, ezek közül néhány példa: 1.
2.
3.
Bartlett-féle gömb próba: Egy khi-négyzet próba, ami azt a null-hipotézist teszteli, hogy a változóink korrelációs mátrixa egységmátrix-e. Ebben az esetben a változók páronként korrelálatlanok lennének, vagyis a változók nem hordoznának redundáns információt. A null-hipotézist akkor vetjük el, ha a próbastatisztika számított értéke nagy, azaz a próba szignifikancia-szintje nullához közeli érték. Amennyiben a próba szignifikáns, nincs értelme belefogni a faktorelemzésbe. A teszt előfeltétele a többdimenziós normális eloszlás. Az inverz korrelációs mátrix vizsgálata \ " : Ha a korrelációs mátrix inverze közelítőleg diagonális mátrix (azaz a főátlótól különböző elemek közelítőleg nullával egyenlők), akkor az adathalmaz alkalmas faktoranalízisre. Anti-image kovariancia/korrelációs mátrix (AIC) vizsgálata (Louis Guttman): Az elemzés abból indul ki, hogy a változók szórásnégyzete felbontható magyarázott szórásnégyzetre (image) és nem magyarázott szórásnégyzetre (anti-image). A faktorelemzés során ezt a felbontást az anti-image kovariancia/korrelációs mátrixok mutatják.
136
4.
Az anti-image kovariancia mátrix főátlón kívüli elemeinek nagysága a meghatározó. Ezek a varianciának azt a részét mutatják, amely független a többi változótól, ezért ezeknek az értékeknek lehetőség szerint alacsonynak kellene lenniük. A főátlóban lévő elemek 1-hez közelítenek, ezek az értékek a mintanagyságtól, a változók számától, a korrelációk átlagos mértékétől, valamint a faktorok számától függnek. Az anti-image korrelációs mátrixban elsődlegesen a főátlóban lévő elemek fontosak, ugyanis ezek tartalmazzák az egyes változókra vonatkozó MSA-értékeket (ld. következő vázlatpont). MSA (Measure of Sampling Adequacy): ¯
6 ∑® 3 kŸ® ¯ 6 , k 6 %∑® 3 °Ÿ® ® 3 Ÿ®
«¬-¡ = ∑¯
¡l : az ±-edik és R-adik változó közötti korrelációs együttható, ²¡l : i-edik és R-adik változó közötti parciális korrelációs együttható, p: a változók száma. Az «¬-¡ -értékek 0 és 1 között változhatnak, és azt mutatják meg, hogy az adott változó mennyire áll szoros kapcsolatban az összes többi változóval. Amennyiben egy változó MSA értéke 0,5 alatti, akkor ezt a változót valószínűleg ki kell zárni az elemzésből, míg ha 1, akkor az adott változót a többi változó hiba nélkül tudja becsüli. Kaiser-Meyer-Olkin mutatószám (KMO):
ahol:
5.
¡l :
¯
∑Ÿ 3 µ¶·Ÿ 6 %∑¯ °6 ® 3 kŸ® ® 3 Ÿ®
³«´ = ∑¯
,
az i-edik és k-adik változó közötti korrelációs együttható, ²¡l : az i-edik és k-adik változó közötti parciális korrelációs együttható, p : a változók száma. (Megjegyzés: Az ²¡l parciális korrelációs együttható olyan mérőszám, amely megmutatja, mekkora lenne az ”¡ és ”l változók közötti lineáris korreláció, ha a többi háttértényezőt állandó szinten tartanánk, tehát nem engednénk, hogy hassanak a vizsgált változókra.) Míg az MSA érték az egyes változókra vonatkozik, a KMO mutatószám magába olvasztja az összes MSA értéket, így valamennyi változóra egyidejűleg hordoz információt. Nagysága szintén 0 és 1 közé esik, ha ez az érték 0,5nél kisebb, akkor kifejezetten nem ajánlott a faktoranalízis eljárása. A ¸0,5 ; 0,6¸ tartományban gyenge, ¸0,6 ; 0,7¸ tartományban közepes, a ¸0,7 ; 0,8¸ tartományban megfelelő, a ¸0,8 ; 0,9¸ tartományban jó, a ¸0,9 ; 1,0¹ tartományban kiváló a faktoranalízis alkalmazhatósága.
3.4.2. A faktoranalízissel kapcsolatos tapasztalataink összegzése A faktoranalízis nem egyszerű eljárás. Aki rendszeresen használ faktoranalízist sok (pl. 50 vagy több) változó esetén, gyakran tapasztal „furcsaságokat”, pl.: negatív sajátértékek, értelmezhetetlen megoldások, stb. Ennek oka többek között lehet az, hogy a faktoranalízis lépései során több fontos döntés szubjektív (ráadásul nagyszámú lehetőség közül), amelyek jó megválasztásához gyakran a tapasztalat sem elég. Érdemes különböző lépéseket kipróbálni és a kapott eredményeket összehasonlítani. A cél mindig a változószám csökkentése és a kapott faktorok értelmezhetősége. Az eredmények pontosítása érdekében iterációt is végezhetünk. Eszerint az analízisből ki kell hagyni azokat a változókat, amelyekhez tartozó legnagyobb faktorsúly egy meghatározott értéket nem ér el. A megmaradt változókkal pedig ismét el kell végezni az analízist. Ez az eljárás egymás után többször megismételhető. Aki gyakran használja ezt a módszert, annak javasolt a faktoranalízis matematikai és statisztikai alapjait az itt lévő áttekintésnél mélyebben is megismerni.
3.5. A főkomponens-analízis és faktoranalízis összehasonlítása 3.3. Példa Vizsgáljuk meg 35 db 1600 köbcentiméternél nem nagyobb hengerűrtartalmú gépkocsitípus következő jellemző adatait (3.20. táblázat): Var1: teljesítmény (LE) Var2: végsebesség (km/h) Var3: 100 km/h-ra történő gyorsulás (másodperc) Var4: fogyasztás városban (l/100 km) Var5: fogyasztás városon kívül (l/100 km) Var6: vegyes fogyasztás (l/100 km) Var7: ár (millió Ft)
138
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35.
Var1 95 112 182 135 170 69 100 120 180 84 80 112 200 95 68 120 75 94 105 124 105 88 75 120 100 68 100 109 106 110 78 150 133 122 96
Var2 180 181 222 178 218 156 182 193 225 172 170 190 237 180 155 175 157 165 185 200 165 186 165 195 182 150 180 187 190 191 165 201 201 203 175
Var3 10,6 14,6 7,9 11,1 7,8 15 11,4 10,8 9 13,6 13,7 9,8 7,5 10,7 12 11,5 17,4 12,3 10,8 9,9 11,5 12,6 13,9 8,9 11,8 16,7 13,6 11,6 11,4 12,2 12,9 8,9 8,7 9,7 12,2
Var4 6,3 5,3 7,7 7,5 7,8 5,8 7,6 8,8 10,1 6,4 6,1 5,5 9,1 5 5,5 8,2 5,6 6,4 7,5 6,1 11 4,6 5,4 10,3 7,3 6,2 6,6 7,6 5,7 7,4 6,5 10,8 9,1 8,8 7,6
Var5 4,3 4,7 5 5,8 4,6 4,1 5 4,7 5,5 4,3 4,3 3,8 5,6 3,3 3,8 5,5 4,3 4,4 4,7 4,4 6 4,2 4,1 7,1 5,2 4,8 4,8 5,2 4,1 4,9 4,5 5,8 5,7 5,3 4,6
3.20. táblázat. A 3.3. Példa adatai
Var6 5 5 6 6,4 5,8 4,7 6,1 6,2 7,2 6 5 4,4 6,1 3,9 4,4 6,5 4,8 5 5,7 5 8,5 4,4 4,7 8,5 6 5,3 5,5 6,2 4,6 6,2 5,2 7,6 7 6,6 5,7
Var7 3,09 6,055 4,66 4,99 5,189 2,199 2,86 4,759 9,87 3,899 3,929 5,834 7,93 4,4 2,299 2,993 3,099 3,157 3,35 6,499 3,29 5,899 3,453 3,449 4,249 2,84 4,79 4,3 4,3 6,24 3,099 5,67 3,69 4,271 3,445
Megjegyezzük, hogy ezek az adatok valós gépkocsik műszaki adatai, amelyeket a www.testcar.hu honlapról töltöttünk le. A sorszámokhoz az alábbi autótípusok rendelhetők: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35.
Mitsubishi Colt ClearTec 1.3 Citroën C4 Picasso 1.6 e-HDI Exclusive Ford Focus 1.6 SCTI Ecoboost Titanium Hyundai iX35 1.6 Style 2WD Alfa Romeo Giulietta 1,4 TB Hyundai i10 1.1 Comfort AC Renault Grand Modus 1.2 TCE Citroën C4 1,6 VTi Volvo S60 T4 R-Design Powershift Mazda 2 1.3 TE (2010) Nissan Micra 1,2 Tekna Citroën DS3 1.6 HDi Peugeot RCZ 1.6 THP Fiat 500c 1.3 Mjet Lounge Suzuki Alto 1.0 GLX-AC Suzuki SX4 1,6 4X4 GS Kia Venga 1,4 CRDI Suzuki Swift 1,2 GS Fiat Punto EVO 1,4 16V Multiair Honda CR-Z 1.5 Dacia Duster 1.6 4WD Honda Insight 1,3 Hybrid Suzuki Splash 1.3 dízel Fiat Punto 1.4 T-Jet Sport Honda City 1.4 Elegance Dacia Sandero Stepway 1.5 dCi Honda Jazz 1.4 i-Shift Kia Cee'd EX 1.4 Eco Dynamic Renault Clio Grandtour 1.5 dCi Citroën C5 1,6 HDi Hyundai i20 1,25 Peugeot 3008 1,6 THP Renault Twingo RS Cup Škoda Octavia 1,4 TSI Ambiente Ford Fiesta 1.4 Trend
3.21. táblázat. A példában vizsgált gépkocsik
140 Mind a főkomponens-analízis, mind a faktoranalízis alkalmazhatósága ellenőrizhető a korrelációs mátrix értékeinek vizsgálatával (3.22. táblázat). Kívánatos, hogy minél több korreláció értéke legyen magasabb, mint 0,3. Példánk adataira nagyon sok változópár esetén kaptunk szoros korrelációt.
3.22. táblázat. A változók korrelációs mátrixa
Először főkomponens-analízissel elemezzük az adatokat. Az adathalmaz korrelációs mátrixának sajátértékeit a 3.23. táblázat mutatja.
3.23. táblázat. A korrelációs mátrix sajátértékei
Látható, hogy két egynél nagyobb sajátérték van, vagyis az adatokat két főkomponenssel lehet jellemezni. A változók és a főkomponensek közötti korrelációt (vagyis a faktorsúlyokat) a 3.24. táblázat mutatja.
3.24. táblázat. A főkomponensek és a változók közötti korreláció értékei, más néven faktorsúlyok (a számítás a korrelációs-mátrixon alapul)
Mivel mindegyik főkomponens több változóval is szoros kapcsolatban áll, így nem tudjuk értelmezni a főkomponenseket. A változók faktor-koordinátáit, azaz a két főkomponens által alkotott új bázisban felírt koordinátákat egységkörön ábrázolva a 3.6. ábra szemlélteti.
3.6. ábra. A változók faktor-koordinátái egységkörön ábrázolva
A Var1-Var2 (teljesítmény és végsebesség), valamint a Var4-Var5-Var6 (fogyasztásra vonatkozó adatok) változók között nagyon szoros korrelációt tapasztalunk. A Var7 (ár) változó a Var1-Var2 (teljesítmény és végsebesség) változókkal van szorosabb kapcsolatban, tehát a gépkocsik árát elsősorban a
142 teljesítmény és a végsebesség határozza meg. A Var7 (ár) változó és a Var4Var5-Var6 (fogyasztásra vonatkozó adatok) változók között nagyon gyenge korrelációt tapasztalunk. A Var1 és Var3 változókhoz (teljesítmény és 100 km/h-ra történő gyorsulás másodpercben) tartozó rádiuszvektorok majdnem 180 fokos szöget zárnak be egymással, ami azt jelenti, hogy e két változó közötti korreláció közel -1, vagyis minél nagyobb a teljesítmény, annál rövidebb a gyorsulási idő. A főkomponens-analízis megbízhatóságát a Cronbach-alfa értékének kiszámításával ellenőriztük, ezt a 3.25. táblázat mutatja. A Var3 változó (100 km/h-ra történő gyorsulás másodpercben) elhagyásával növelhetnénk egy kicsit a Cronbach-alfa értékén, de ezt fontos változónak ítéljük, így nem élünk ezzel a lehetőséggel.
3.25. táblázat. A Cronbach-alfa értéke
Az elemzés további részében faktoranalízissel dolgozunk. Ha a 3.23. táblázatban lévő sajátértékeket vesszük alapul, akkor az egynél nagyobb sajátértékek számából az következik, hogy 2 faktort érdemes választani. A scree-test grafikonja (3.7. ábra) alapján inkább 3 faktoros modellt állítanánk fel. Az alapján döntünk, hogy a vizsgálat során kapott 2 vagy 3 faktor értelmezhető jobban. Mivel a 3.6. ábrán három jól elkülönülő csoportban láthatók a változók (Var1-Var2-Var7, Var4-Var5-Var6 és Var3), ezért először három faktorral próbálkozunk. A rotáció nélküli és rotációval kapott faktorsúlyok összehasonlítása után a varimax rotáció mellett döntünk, a kapott eredmény a 3.26. táblázatban látható.
3.7. ábra. A scree-test grafikonja
3.26. táblázat. Faktorsúlyok háromfaktoros modell esetén (varimax rotáció)
Az első faktor a Var1 és Var2 (teljesítmény és végsebesség) változókkal erős pozitív, a Var3 (gyorsulási idő) változóval nagyon erős negatív korrelációban van, a második faktor a Var4-Var6 (fogyasztási adatok) változókkal, a harmadik pedig a Var7 (ár) változóval nagyon szoros pozitív korrelációban áll. Ezek alapján a következő módon nevezzük el a faktorokat: 1. faktor: telje-
144 sítmény faktor, 2. faktor: fogyasztás faktor, 3. faktor: ár faktor. Az egyes gépkocsik t" , t? , tL faktorbeli eredményeit a faktorértékek táblázata mutatja (3.27. táblázat).
3.27. táblázat. Az egyes gépkocsik faktorértékei
A 3.27. táblázatból le tudjuk olvasni, hogy a teljesítmény faktor (1. faktor) tekintetében legnagyobb koordinátával a 3. sorszámú, legkisebbel a 26. sorszámú gépkocsi rendelkezik. A 2. faktor-koordináták (fogyasztást mutató faktor) közül legnagyobb a 24. autó koordinátája, tehát ez fogyaszt legtöbbet, legkisebb a 14. sorszámúé, ennek fogyasztása a legkisebb. Ha kétfaktoros modellel dolgozunk, akkor varimax rotáció után a következő faktorsúlyokat kapjuk (3.28. táblázat):
3.28. táblázat. Faktorsúlyok kétfaktoros modell esetén (varimax rotáció)
Az első faktor a Var1, Var2, Var3 és Var7 (teljesítmény, végsebesség, gyorsulási idő és ár) változókkal van szoros kapcsolatban, méghozzá a gyorsulási idő kivételével mindegyik korreláció pozitív. A második faktor a Var4Var6 (fogyasztási adatok) változókkal áll nagyon szoros pozitív korrelációban. Ezek alapján a következő módon nevezzük el a faktorokat: 1. faktor: teljesítmény-ár faktor, 2. faktor: fogyasztás faktor. A gépkocsik faktorértékei a kétfaktoros rendszerben a 3.29. táblázatban láthatók. A faktorértékekről leolvasható, hogy a legnagyobb teljesítmény-ár koordinátájú autó a 13. sorszámú, a legkisebb a 26. A legnagyobb fogyasztású a 21., a legtakarékosabban üzemeltethető pedig a 14. A faktoranalízis megbízhatóságát reziduális korrelációs mátrixszal vizsgálva megállapítható, hogy a modell jól reprodukálja a mérési eredményeket. A mátrix főátlón kívüli értékei között csak egyetlen 0,1-nél lényegesen nagyobb érték van (Var3-Var7 esetében 0,21, ezt pirossal jelöli a program) és nincs -0,1-nél lényegesen kisebb (3.30. táblázat). A két faktor a teljes variancia 88%-át magyarázza (ld. kumulatív sajátértékek 3.23. táblázata), így mondhatjuk, hogy a modell megbízható.
146
3.29. táblázat. A gépkocsik faktorértékei kétfaktoros modell esetén (varimax rotáció)
3.30. táblázat. Reziduális korrelációs mátrix
Összefoglalva A faktoranalízis és a főkomponens-analízis hasonlít egymásra, de van néhány fontos különbség. Az általános célok eltérnek a két eljárásnál. A főkomponens-analízis a leíró statisztika módszerei közé tartozik, amellyel részinformációkat próbálunk összegezni a lehető legkisebb információveszteséggel (vagyis a variancia maximalizálásával). Tehát az okság a változóktól a főkomponens felé mutat. A faktoranalízis általános célja egy látens, lineáris struktúra feltárása a változók mért, megfigyelt értékei (manifeszt változók) segítségével, vagyis az okság a faktorok felől mutat a változók felé (3.8. ábra). A főkomponenseknek általában nincs semmilyen gyakorlati jelentésük, hiszen az eredeti változók nagyon sokfélék lehetnek, így a lineáris kombinációiknak legtöbbször semmiféle értelmezést sem adhatunk. A főkomponensanalízis sokszor egy összetett adatelemzés első fázisa, amely során a főkomponensekkel dolgozunk tovább, például klaszterezzük a megfigyeléseinket. Gyakori alkalmazása a többdimenziós adatállomány grafikus megjelenítése is. A faktoranalízis eljárásának végén azonban a faktorokat értelmeznünk kell, azok valamilyen jelentéssel kell, hogy bírjanak. Közös bennük, hogy mindkettő támaszkodhat a kovariancia-, illetve korrelációs mátrix elemzésére. A választás mindkét eljárás esetén azon múlik, hogy meg akarjuk-e őrizni az eredeti skálát (mértékegységeket), vagy nem.
3.8. ábra. A főkomponens-analízis és a faktoranalízis modellje
4. Klaszteranalízis A hasonló dolgok csoportosításának, osztályokba sorolásának, kategóriákba rendezésének igénye szinte egyidős a történelemmel. Az emberiség hajnalán szükség volt például arra, hogy a különböző vadon élő állatokat a „veszélyes” vagy éppen a „húsa ehető” jelzőkkel lássák el. Ismert, hogy később, Darwin evolúcióelméletének kidolgozásakor a növények és állatok osztályozása döntő szerepet játszott. Akkoriban a külső jegyek, vagy viselkedési minták szubjektív mérlegelése képezte az alapját az osztályozásnak. A klaszteranalízis célja, hogy egy meglevő adathalmazban (pl. országok, cégek, termékek) csoportokat, osztályokat hozzon létre az elemek tulajdonságai alapján. Maga „cluster” szó köteget, csomagot jelent. A modern módszerek alkalmazásakor legtöbbször feltesszük, hogy az adatok numerikusak. Ha például minden adat két valós számot tartalmaz (azaz egy adat egy kétdimenziós vektor), akkor az adatokat derékszögű koordináta-rendszerben pontokkal szemléltethetjük. Ezt a megközelítést felhasználva, tekintsük a következő két ábrát.
4.1. ábra
Az elsőn, a pontok elhelyezkedése alapján természetes módon látjuk, hogy három klasztert érdemes létrehozni. A második ábrán nem látható előre, természetes módon, hogy hogyan tudjuk klaszterekbe sorolni a meglevő pontokat.
150
4.2. ábra
A klaszterek létrehozásakor kizárólag az adatokból indulunk ki, nincs arra vonatkozó információnk (vagy nem vesszük figyelembe), hogy milyen természeti vagy társadalmi törvényszerűségek jellemzőek a vizsgált adathalmazra. A klaszternek mint statisztikai fogalomnak nincs is pontos definíciója, csak körülírása (most éppen ezt részletezzük). A klaszteranalízis módszereinek sokszínűsége a probléma fontosságát jelzi, és az adatok nagy száma, továbbá a nagy mennyiségű számolás miatt a számítógépek elterjedése tette lehetővé, hívta életre a statisztikának ezt az ágát. Napjainkban eredményesen használják a meteorológiában, a régészetben, a genetikában, a közgazdaságtanban. és nyilvánvaló, hogy az előbbi felsorolás a teljesség igénye nélkül készült. A bevezető példát Halmosi Mónika és Bognár Csaba közgazdászhallgatók „Jövedelemegyenlőtlenség alakulása a rendszerváltástól napjainkig” című TDK dolgozatából merítjük, akik az Országos Tudományos Diákköri Konferencián II. helyezést értek el 2009-ben. A jövedelemegyenlőtlenségek mérésének, vizsgálatának egyik legfontosabb mutatója az úgynevezett Gini-együttható vagy Gini-index. Ez egy 0 és 1 közötti mutatószám, melynek értékelése a következő: 0,25-ig alacsony, 0,25 – 0,3 között közepesen alacsony, 0,3 – 0,35 között közepesen magas, végül 0,35 felett magas.
P ortugália L ettors z ág L itvánia Nagy-B ritannia O ls z ors z ág É s z tors z ág S panyolors z ág L engyelors z ág G örögors z ág Írors z ág B elgium F ranc iaors z ág Hollandia A us z tria C iprus * S z lovénia Németors z ág Magyarors z ág F innors z ág L ux emburg* S z lovákia C s ehors z ág S védors z ág Dánia 0,20
0,385 0,377 0,36 0,36 0,36 0,358 0,347 0,345 0,343 0,343 0,33 0,327 0,309 0,291 0,29 0,284 0,283 0,269 0,269 0,26 0,258 0,254 0,25 0,247 0,25
0,30
0,35
0,40
4.3. ábra. Gini-indexek az Európai Unió 24 országában. Forrás: Halmosi M. és Bognár Cs. (Adatok: Human Development Reports 2007/2008). Megjegyzés: A *-gal jelölt országok adatainak forrása a Central Intelligence Agency’s The World Factbook [2005].
A szerzők a klaszteranalízis segítségével csoportokat hoztak létre a fenti adatokból, melynek számítógépes elemzése a következő eredményt nyújtotta öt klaszterre vonatkozólag.
152
42%
37%
32%
27%
22%
17%
Sv Dá éd nia or C se szá ho g rs Sz zág lo L u vá xe kia m F i bu r n g* M no ag r s ya zá g Né rors m zá et g or s Sz zág lo vé n C ia ip ru Au s* sz Ho tria Fr l l a an ci ndia ao rs zá Be g lg iu m Í G rors ör ög zág Le o ng rsz y á Sp elo g a n r sz yo á g lo És rszá zt o g O rsz l N szo ág ag r y- szá Br g i ta nn Li ia tv Le á n tto i a r Po szá rtu g gá lia
12%
4.4. ábra. Gini-indexek az Európai Unió 24 országában. Forrás: Halmosi M. és Bognár Cs.
Ebben a fejezetben először bizonyos elméleti tudnivalókat ismertetünk, majd utána rátérünk a Statistica programcsomag lehetőségeinek tárgyalására. Ez utóbbi részben nyilvánvalóan szükség lesz demonstráló példákra, de az elméleti rész kifejtésekor is igyekezünk szemléltetni az elhangzottakat.
4.1. Alapfogalmak A tudományos igényű csoportokba soroláshoz pontosan meg kell fogalmazni a klaszterezés szempontjait. A klasztereket a sorszámukkal fogjuk jelölni (persze egy adott probléma vizsgálatakor lehetőség nyílik arra, hogy a sorszám mellett valamiféle nevet vagy jelzőt használjunk a könnyebb érthetőség kedvéért). A végeredménytől (output) azt várjuk, hogy megadja minden egyes elem klaszterének sorszámát. Az adatokat azonos, D dimenziójú vektoroknak tekintjük, jelölje a vizsgált objektumok összességét X, a csoportosítandó objektumok általános elemét ººº. l Tehát ” = » ¼" , ººº, ? … , ººº½, Q
ahol ºººl = l", l?, … , l¾ . A ¿" , ¿? , … , ¿k klaszterek mindegyike részhalmaza X-nek, továbbá teljesül, hogy páronként diszjunktak és egyesítésük viszszaadja az X halmazt, azaz ” = ⋃k¡Á" ¿¡ és ha ± ≠ š akkor ¿¡ ∩ ¿™ = ∅.
Alapvető fogalom még az elemek közti távolság (idegen szóval metrika), mert akkor tartunk két elemet hasonlónak, egy klaszterbe tartozónak, ha a közöttük levő távolság kicsi. Megjegyezzük, hogy a hétköznapi távolságfogalom mellett léteznek a matematikában absztrakt távolságok is. Nyilvánvaló, hogy az elemek közötti távolság átértelmezése vélhetően új csoportosítást von maga után. Az egyik általános távolságot következőképpen szokták definiálni adott p és q valós számok segítségével ( , Å Æ 1): ¾
¼Ç , ¼È = ÉÊË
¡i
iÁ"
•
−
™i Ë
"/Í
Ì
.
Vegyük észre, hogy a = Å = 2 választás visszaadja a szokásos, úgynevezett Euklideszi távolságot, melyet a koordináta geometriában megszokhattunk. Amennyiben Î = 2 is teljesül még, akkor a megszokott ¼Ç , ¼È = |
¡"
−
™"
?
+
¡?
−
™?
?
formulát kapjuk vissza. t2
(xi1, xi2) d(xi , xj) (xj1, xj2) t1
4.5. ábra
Értelmezni szeretnénk egy elem és egy klaszter távolságát is, ehhez először a klaszterközéppontot definiáljuk. A j-edik klaszter ¿ÏÈ középpontja a benne levő elemek átlaga, azaz " ¿ÏÈ = #Ñ ∑ ® ∈ÑÒ l , Ò
ahol #¿™ a j-edik klaszterben levő elemek aktuális számát jelenti. A klaszterközéppontot használjuk az l elem és a ¿™ klaszter távolságának megadására a l , ¿™
=
Ï
l , ¿È
154 képlet segítségével. Tehát a vizsgált elem és adott klaszter távolsága az elem és a klaszterközéppont távolsága lesz. Továbbmenve, két klaszter távolságán a klaszterközéppontjaik távolságát értjük. Tehát ¿ÏÇ , ¿ÏÈ .
¿¡ , ¿™ =
Szokásos még a klaszterezés végén (vagy folyamán) mérni azt, hogy mennyire „jó” eredményt hozott az eljárás, erre a k
Ó ¿" , ¿? , … , ¿k = Ê Ê
™Á" ® ∈ÑÒ
l , ¿™
formulát használják, és veszteségnek hívják a Ó ¿" , ¿? , … , ¿k mennyiséget. Amennyiben ez „kicsi” akkor jónak gondoljuk az osztályzást.
4.2. Partíciós módszer: a k-közép eljárás Az első és legfontosabb megjegyzés, hogy a megadandó klaszterek r száma előre rögzítésre kerül. Az algoritmus a végrehajtása során egyesével végigmegy az ¼" , ººº, ? … , ººº Q elemeken, és abba a klaszterbe teszi az aktuális elemet, amely a legközelebb van hozzá. Világos, hogy ehhez elöljáróban meg kell adni bizonyos kezdeti klaszterközéppontokat, hiszen az első lépés előtt minden klaszter üres. Ez történhet véletlenszerűen, vagy véletlenszerűen választott elemekkel, vagy éppen a korábbi tapasztalatokat figyelembe véve. Ha egy elemet beillesztettünk a hozzá legközelebbi klaszterbe, akkor a klaszterközéppontot újra kell számolni, hiszen megváltozott a klaszter összetétele. Akkor ér véget az eljárás, ha minden elemet beillesztettünk. Az algoritmus általában első futtatásra nem adja meg a lehető legjobb megoldást, ezért az iterációt többször végig kell futtatni, de ekkor a meglevő klaszterközéppontok öröklődnek az utána következő iterációhoz. Akkor tekintjük teljesen befejezettnek a klaszterezést, ha két egymás után következő iteráció eredménye között nincs változás, vagy a változások száma bizonyos korlát alá esik. Az elhangzottak szemléltetésére tekintsük az alábbi példát, amely két részből áll. Összesen nyolc pont klaszterezését vizsgáljuk, és a két rész között egyrészt az a különbség, hogy más-más kiindulási klaszterközépponttal dolgozunk, másrészt az elemeket átsorszámozzuk, ezzel a beillesztésük sorrendje megváltozik. Legyen ¼" = 0; 0 , ººº? = 1; 0 , ºººL = 1; 1 , ºººJ = 2; 1 , ºººI = 4; 1 , ºººŠ = 4; 2 , ººº• = 5; 1 , ººº• = 5; 2 . A 4.6. ábra mutatja a pontok (elemek) elhelyezkedését. A létrehozandó klaszterek száma legyen = 2.
t2
3 2 1 t1
0 0
1
2
3
4
5
6
4.6. ábra
4.2.1. Első klaszterezés Ô" = ¼" = 0 ; 0 , ¿ Ô? = A kezdeti klaszterközéppontok legyenek rendre ¿ ººº• = 5 ; 2 . Most sorban betesszük a fokozatosan változó klaszterekbe az egyes elemeket. Ô" = 0 < ¼" , ¿
Ô ººº, ? ¿" = 1 < Ô ººº, L ¿" = Ô ººº, J ¿" = Ô ººº, I ¿" = Ô ººº, Š ¿" = Ô ººº, • ¿" = Ô ººº, • ¿" =
√I < ? √?$ L √L• ? L√I
? √ŠI ? √•L ?
< H H H H
Ô? = √29 ⇒ ¼" ∈ ¿ Ô" ⇒ ¿ Ô" = 0 ; 0 , ¼" , ¿ ú™
Ô Ô Ô ººº, ? ¿? = 2√5 ⇒ ººº ? ∈ ¿" ⇒ ¿" ú™ = Ô Ô Ô ººº, L ¿? = √17 ⇒ ººº L ∈ ¿" ⇒ ¿" ú™ =
"
;0 ,
? ? "
;
L L "
Ô Ô Ô ººº, J ¿? = √10 ⇒ ººº J ∈ ¿" ⇒ ¿" ú™ = 1 ;
,
?
,
Ô Ô Ô ººº, I ¿? = √2 ⇒ ººº I ∈ ¿? ⇒ ¿? ú™ = 4 ; 1 ,
L Ô Ô Ô ººº, Š ¿? = 1 ⇒ ººº Š ∈ ¿? ⇒ ¿? ú™ = 4 ; ? ,
Ô ººº, • ¿? = Ô ººº, • ¿? =
√I ⇒ ººº• ? ? √? ⇒ ººº• L
Ô? ⇒ ¿ Ô? = ∈¿ ú™
Ô? ⇒ ¿ Ô? = ∈¿ ú™
"L
J
; , L L
d
?
L
; ? .
Az algoritmus egyszeri végrehajtása után a következő klasztereket kaptuk (lásd 4.7. ábra): Ô Ô ¼" , ººº, ? ººº, L ººº J ∈ ¿" éx ººº, I ººº, Š ººº, • ººº • ∈ ¿? .
156 t2
1 1 t1
4.7. ábra
Ezek után a végén kapott
Ô" = 1 ; " ¿ ú™ ?
Ô? = és ¿ ú™
d
?
L
; ?
klaszterközéppontokat véve kezdőközéppontoknak, újból végigmegyünk az elemeken. Most kevésbé részletezve a számolásokat, az alábbiakat tapasztaljuk. Ô" -hez mint ¿ Ô? -höz ⇒ ¼" ∈ ¿ Ô" ⇒ ¿ Ô" = 0 ; 0 , ¼" közelebb van ¿ ú™
Ô" -hez mint ¿ Ô? -höz ⇒ ººº? ∈ ¿ Ô" ⇒ ¿ Ô" = ººº? közelebb van ¿ ú™ Ô" -hez mint ¿ Ô? -höz ⇒ ºººL ∈ ¿ Ô" ⇒ ¿ Ô" = ºººL közelebb van ¿ ú™
"
;0 ,
? ? "
;
L L "
,
Ô" -hez mint ¿ Ô? -höz ⇒ ºººJ ∈ ¿ Ô" ⇒ ¿ Ô" = 1 ; , ºººJ közelebb van ¿ ú™ ? Ô Ô Ô Ô ºººI közelebb van ¿? -höz mint ¿" -hez ⇒ ºººI ∈ ¿? ⇒ ¿? ú™ = 4 ; 1 , Ô? -höz mint ¿ Ô" -hez ⇒ ºººŠ ∈ ¿ Ô? ⇒ ¿ Ô? = 4 ; ºººŠ közelebb van ¿ ú™ Ô? -höz mint ¿ Ô" -hez ⇒ ººº• ∈ ¿ Ô? ⇒ ¿ Ô? = ººº• közelebb van ¿ ú™ Ô? -höz mint ¿ Ô" -hez ⇒ ººº• ∈ ¿ Ô? ⇒ ¿ Ô? = ººº• közelebb van ¿ ú™
L
? "L J
d
?
L
,
; L , L
; ? .
Látható, hogy az új klaszterközéppontokkal való számolás nem változtatott az első fázisban kialakult klasztereken ( ¼" második alkalommal történő beillesztése után ººº, ? ººº L és ººº J szinte ugyanolyan feltételek közé került, majd ººº I beillesztése után klónozni lehetett az első fázis utolsó három lépését).
t2
2 1 1
2 t1
4.8. ábra
Tehát végeredményként a
Ô Ô ¼" , ººº, ? ººº, L ººº J ∈ ¿" éx ººº, I ººº, Š ººº, • ººº • ∈ ¿?
klaszterezést tekinthetjük.
4.2.2. Második klaszterezés Az adatokat átsorszámozzuk. Legyen ººº" = ºººŠ = 4; 2 , ººº? = ºººI = 4; 1 , ºººL = ¼" = 0; 0 , ¼J = ººº? = 1; 0 , ºººI = ºººL = 1; 1 , ºººŠ = ºººJ = 2; 1 , ººº• = ººº• = 5; 2 , ººº• = ººº• = 5; 1 . Másik változás, hogy a kezdeti klaszterközéppontokat is megváltoztatjuk, Ô" = ººº" = 4 ; 2 , ¿ Ô? = ººº• = 5 ; 2 . Kezdjük el az elemek beillegyen most ¿ lesztését az alakuló klaszterekbe. Ô ººº, " ¿" = 0 <
Ô Ô Ô ººº, " ¿? = 1 ⇒ ººº " ∈ ¿" ⇒ ¿" ú™ = 4 ; 2 ,
Ô ººº, ? ¿" = 1 < Ô ººº, L ¿" = Ô" = ¼J , ¿
Ô ººº, I ¿" =
√•L ? √"L L √?Š J
Ô ººº, Š ¿" = I < Ô ººº, • ¿" = Ô ººº, • ¿" =
"
<
<
<
√L•L Š I√"L Š
H H
Ô Ô Ô ººº, ? ¿? = √2 ⇒ ººº ? ∈ ¿" ⇒ ¿" ú™ = 4; ? , Ô Ô Ô ººº, L ¿? = √29 ⇒ ººº L ∈ ¿" ⇒ ¿" ú™ = Ô? = 2√5 ⇒ ¼J ∈ ¿ Ô" ⇒ ¿ Ô" = ¼J , ¿ ú™
•
L
;1 ,
L d L
J
; J ,
J Ô Ô Ô ººº, I ¿? = √17 ⇒ ººº I ∈ ¿" ⇒ ¿" ú™ = 2 ; I ,
Ô Ô Ô ººº, Š ¿? = √10 ⇒ ººº Š ∈ ¿" ⇒ ¿" ú™ = 2 ; Š , I
Ô Ô Ô ººº, • ¿? = 0 ⇒ ººº • ∈ ¿? ⇒ ¿? ú™ = 5 ; 2 , Ô Ô Ô ººº, • ¿? = 1 ⇒ ººº • ∈ ¿? ⇒ ¿? ú™ = 5 ; ? . L
158 Az első iteráció végrehajtása után a következő klasztereket kaptuk (lásd 4.9. ábra): t2
1 1
t1
4.9. ábra
Ezek után a
Ô Ô ººº, " ººº, ? ººº, L ¼J , ººº, I ººº Š ∈ ¿" éx ººº, • ººº • ∈ ¿? . Ô" = 2 ; I ¿ ú™ Š
Ô? = 5 ; L és ¿ ú™ ?
klaszterközéppontokat véve kezdőközéppontoknak, újból végigmegyünk az elemeken. Az alábbiakat kapjuk. Ô? -höz mint ¿ Ô" -hez ⇒ ººº" ∈ ¿ Ô? ⇒ ¿ Ô? = 4 ; 2 , ººº" közelebb van ¿ ú™ Ô? -höz mint ¿ Ô" -hez ⇒ ººº? ∈ ¿ Ô? ⇒ ¿ Ô? = 4; L , ººº? közelebb van ¿ ú™ ? Ô" -hez mint ¿ Ô? -höz ⇒ ºººL ∈ ¿ Ô" ⇒ ¿ Ô" = 0; 0 , ºººL közelebb van ¿ ú™ Ô" -hez mint ¿ Ô? -höz ⇒ ¼J ∈ ¿ Ô" ⇒ ¿ Ô" = ¼J közelebb van ¿ ú™
Ô" -hez mint ¿ Ô? -höz ⇒ ºººI ∈ ¿ Ô" ⇒ ¿ Ô" = ºººI közelebb van ¿ ú™
"
; 1 ,
? ? L
"
; L ,
Ô" -hez mint ¿ Ô? -höz ⇒ ºººŠ ∈ ¿ Ô" ⇒ ¿ Ô" = 1 ; " , ºººŠ közelebb van ¿ ú™ ? Ô? -höz mint ¿ Ô" -hez ⇒ ººº• ∈ ¿ Ô? ⇒ ¿ Ô? = ººº• közelebb van ¿ ú™ Ô? -höz mint ¿ Ô" -hez ⇒ ººº• ∈ ¿ Ô? ⇒ ¿ Ô? = ººº• közelebb van ¿ ú™
"L
;
I
L L d L
?
; ? .
,
A második iteráció áttette a második klaszterbe az előzetesen az első klaszterbe sorolt ººº" és ººº? elemeket, a többi elemen nem változtatott. Tehát a jelenlegi állapot a Ô Ô ººº, L ¼J , ººº, I ººº Š ∈ ¿" éx ººº, " ººº, ? ººº, • ººº • ∈ ¿?
tartalmazásokkal írható le. Most harmadszor is alkalmazni kellene az iterációt a Ô" = 1 ; " ¿ ú™ ?
Ô? = és ¿ ú™
d
?
L
; ?
kezdőpontokra. Mivel ezek megegyeznek az első klaszterezés első fázisa után kialakult kezdőközéppontokkal, továbbá
valamint
Ô" ºººL = ¼" , ¼J = ººº, ºººI = ººº, ºººŠ = ºººJ ∈ ¿ ? L
Ô? , ººº" = ººº, ººº? = ººº, ººº• = ººº, ººº• = ººº• ∈ ¿ Š I •
ezért világos, hogy a harmadszori iteráció nem változtatna a jelenlegi helyzeten.
t2
3
1 2
2 1
3
t1
4.10. ábra
Tehát visszatérve az elemek eredeti jelölésére végeredményként ismét a Ô Ô ¼" , ººº, ? ººº, L ººº J ∈ ¿" éx ººº, I ººº, Š ººº, • ººº • ∈ ¿?
klaszterezést tekinthetjük. Mivel mindkét klaszterezés ugyanarra az eredményre vezetett, így a klaszterek „jóságának” mérőszáma mindkét esetben Ó ¿" , ¿? = 2 ∙
√I ?
"
+2∙?+4∙
√? ?
= √5 + 2√2 + 1 ≈ 6,064.
Végül megjegyezzük, hogy általában az elemek l", l?, … , l¾ koordinátái ténylegesen különböző, más-más jellegű, eltérő típusú adatokat tartalmazhatnak, így ezek összehangolására szükség lehet az egyes koordináták standardizálására. Ismert, hogy a standardizáláshoz kell az egyes koordináták átlaga és szórása, amit az
160 áiP,™
"
= ∑QlÁ" Q
l™
"
és ¬™ = | ∑QlÁ" Q
l™
−
áiP,™
?
formulák adnak meg. A standardizált adat kiszámolása l™ − áiP,™ Kl™ = ¬™
alapján történik.
4.3. Hierarchikus módszer Ez a módszer abból indul ki, hogy kezdetben minden elem külön klaszterben helyezkedik el. Általánosságban az jellemzi, hogy minden lépésben a két legközelebb eső (vagy bizonyos távolság alatti) klasztert vonja össze, ezáltal egyesével csökkenti a klaszterek számát. Az eljárás akkor ér véget, ha elérjük az előre megadott klaszterszámot, amely lehet akár 1 is, mert akkor az összes korábbi klaszterszámú szétosztást figyelembe tudjuk venni. A veszteségek értékeit minden közbeeső állapotban fel lehet írni ha szükséges. Az előbb említettek feltételezik, hogy bármely állapotban rendelkezésre állnak a klaszterek közti távolságok, amelyek egy része minden összevonás után változik. Itt jegyezzük meg, hogy az alapfogalmaknál definiált ¿¡ , ¿™ = ¿ÏÇ , ¿ÏÈ klaszterek közötti távolságot szokták úgy is értelmezni, hogy az a különböző klaszterekben levő elemek távolságainak minimuma legyen, vagy az összes ¿¡ , ¿™ −ből származó elempár távolságainak átlaga. Az eljárás szemléltetésére tekintsük ismét az ¼" = 0; 0 , ººº? = 1; 0 , ºººL = 1; 1 , ºººJ = 2; 1 , ºººI = 4; 1 , ºººŠ = 4; 2 , ººº• = 5; 1 , ººº• = 5; 2 pontokat. A kezdeti klasztertávolságokat az alábbi táblázat tartalmazza. A táblázat jobb felső része a pontos, míg bal alsó része a viszonyítást megkönynyítendő közelítő távolságokat mutatja két tizedesjegy pontossággal.
ººº ÙW ººº ÙX ººº Ù‰ ººº ÙÚ ººº ÙÛ
ººº ÙW
1 1,41 2,24 4,12
ººº ÙX
1 1 1,41 3,16
ººº Ù‰
√2 1 1 3
ººº ÙÚ
√5 √2 1 2
ººº ÙÛ
√17 √10 3 2 -
ºººÜ Ù
√20 √13 √10 √5 1
ºººÝ Ù
√26 √17 4 3 1
ºººÞ Ù
√29 √20 √17 √10 √2
ººº ÙÜ ººº ÙÝ ººº ÙÞ
4,47 5,10 5,39
3,61 4,12 4,47
3,16 4 4,12
2,24 3 3,16
1 1 1,41
1,41 1
√2 1
1 1 -
4.1. táblázat
Kezdetben minden elem önálló klaszterben van. Ennek rövidített jelölésére pusztán az elemek indexét használjuk: (1), (2), (3), (4), (5), (6), (7), (8). Az első lépésekben rendre vonjuk össze az első és második klasztert, majd a harmadikat és negyediket, azután az ötödiket és hatodikat, végül a hetediket és nyolcadikat. Vegyük észre, hogy minden esetben 1 volt a köztük levő távolság, továbbá pl. (1) és (2) összevonásából származó (1,2) klaszter középpontja " ; 0 lesz. Ezáltal a távolságokat tartalmazó mátrix 7 ß 7-esre redukálódik, ? de a (3), (4), (5), (6), (7), (8) klaszterek egymáshoz való viszonya nem változik. Ezen kívül megfigyelhető, hogy pontokat tartalmazó ábra segítségével, hogy az (1,2) klaszter távolsága a többitől nagyobb lesz, mint a (2)-es klaszteré volt. Ez azt jelenti, hogy (3) és (4) összevonása valóban két minimális távolságú klaszter összevonása.A gondolatmenet hasonlóan folytatható egészen addig, amíg az első négy, korábban említett összevonást el nem végezzük, és a (1,2), (3,4), (5,6), (7,8) négy klaszterhez nem jutunk. Hogy követhető legyen az eljárás, most újból feltüntetjük a távolságok táblázatát. A klaszterközéppontok rendre Ô" = ¿
" ?
Ô? = ;0 , ¿ (1,2)
(1,2) (3,4) (5,6) (7,8)
1,41 3,81 4,74
L ?
ÔL = 4; L , ¿ ÔJ = 5; L . ;1 , ¿ ?
(3,4) √2 2,55 3,54
(5,6)
√58/2 √26/2 1
?
(7,8)
3√10/2 5√2/2 1 -
4.2. táblázat
A táblázatban a legkisebb érték 1, eszerint a következő összevonás az (5,6) és (7,8) klasztereket érinti. Az új klaszterközéppont sokkal messzebb van (1,2)-től és (3,4)-től mint (1,2) és (3,4) távolsága, tehát most az (1,2) és (3,4)
162 klaszterek összevonása következik. Azaz jelenleg az (1,2,3,4) és (5,6,7,8) klaszterek léteznek, melyek összevonása lesz az utolsó lépés. Az egész eljárást jól szemlélteti a 4.11. ábra. 0 : (1) (2) (3) (4) (5) (6) (7) (8) 1 : (1,2) (3) (4) (5) (6) (7) (8) 2 : (1,2) (3,4) (5) (6) (7) (8) 3 : (1,2) (3,4) (5,6) (7) (8) 4 : (1,2) (3,4) (5,6) (7,8) 5 : (1,2) (3,4) (5,6,7,8) 6 : (1,2,3,4) (5,6,7,8) 7 : (1,2,3,4,5,6,7,8)
4.11. ábra
Az egyes szintek veszteség-mérőszámát az alábbi táblázat foglalja össze. lépés
0
1
2
3
4
5
6
7
veszteség
0
1
2
3
4
4,84
6,06
15,01
4.3. táblázat
4.4. A Statistica programcsomag „Cluster” modulja A Statistica programcsomag klaszteranalízisre vonatkozó modulja három féle módszert tartalmaz: • Joining (tree clustering), • K-means clustering, • Two-way joining.
A felsoroltak közül a második lényegében a partíciós módszernél tárgyalt k-közép módszernek felel meg, míg az első a hierarchikus eljárás megfelelője. Mivel a korábbiakban csak ezeket elemeztük részletesen, így a programcsomag ismertetésekor eltekintünk a harmadikként felsorolt „Two-way joining” opció vizsgálatától. Feltételezzük, hogy rendelkezésünkre áll egy adatbázis, az alapfogalmaknál tárgyalt vektoros formában, amely a vizsgálat tárgyát képezi. Az általunk később vizsgált példa Amerika szárazföldi országairól tartalmazza a területét (1000 km2) és népességét (millió fő). Ország
Terület Népesség
Belize Costa-Rica Guatemala Honduras Kanada Mexikó Nicaragua Panama Salvador USA Argentína Bolívia Brazília Chile Ecuador Guyana Kolumbia Paraguay Peru Suriname Uruguay Venezuela
4.12. ábra
23,00 51,10 108,90 112,10 9976,10 1958,20 130,30 77,40 21,00 9372,60 2766,90 1098,60 8512,00 756,90 283,60 215,00 1138,90 406,80 1285,20 163,30 177,40 912,10
0,22 3,33 10,62 5,95 29,61 93,01 4,54 2,63 5,77 263,03 34,77 7,41 155,82 14,20 11,46 0,83 35,10 4,83 23,53 0,42 3,19 21,64
4.4. táblázat
Indítsuk el a Statistica programot, és hívjuk be az elemezni kívánt adatbázist. Az alábbi képernyő fogad bennünket ( 4.13. ábra). A fejlécen megjelenik a betöltött file (Amerika2) neve, továbbá hogy az 22 darab 2 dimenziós adatot tartalmaz. Az egyes koordináták változókként vannak említve, melynek nevei rendre Terület és Népesség.
164
4.13. ábra
A klaszteranalízis eléréséhez válasszuk ki a Statistics menüt, majd abból a Mult/Exploratory legördülő menüt, melynek tetején rögtön észrevehetjük a Cluster varázsszót. Erre rákattintva belépünk a klaszteranalízis műhelyébe, ahol az alábbi ábra jelenik meg.
4.14. ábra
Először a használni kívánt eljárásról kell dönteni, a felsorolt három lehetőség közül majd az első kettővel ismerkedünk meg részletesen, mégpedig az itteni sorrend szerint, ami éppen fordítottja az elméleti anyagban kifejtetteknek. Ha kiválasztottuk az általunk preferált algoritmust, akkor utána annak be lehet állítani bizonyos paramétereit, továbbá meg kell majd adni, hogy a behívott adatbázis mely részére kívánjuk lefuttatni az algoritmust.
4.4.1. Joining (tree clustering) Az előző ablakban (ábrán) az OK-ra kattintva az alábbi két ablak jelenhet meg (a második akkor, ha az első ablakot kiterjesztjük az Advanced gomb leütésével).
4.15. ábra
Alapvetően alulról felfelé haladva nézzük végig a beállítható, vagy beállítandó paramétereket. • A Distance measure a térben levő két pont közötti távolság értelmezését jelenti. A szokásos hétköznapi metrika az Euklidean distances fedőnév alatt található, legyen ez az alapértelmezés. Ettől eltérő, absztrakt távolság beállítására van lehetőség a legördülő menüben. • Az Amalgamation (linkage) rule a klaszterek egyesítésére vonatkozó szabály megválasztását teszi lehetővé. Itt az alapértelmezés a Single Linkage, ettől akkor térjünk csak el, ha a megajánlott egyszerű összekapcsolás tulajdonságait kiismertük. • Az Input file felirat mellett be lehet állítani, hogy az alapadatokat (Raw data), vagy a távolságmátrixot (Distance matrix) tekintve induljon az algoritmus. Az alpértelmezés: Raw data. • A Cluster beállításainál levő két lehetőség: Variables (columns) vagy Cases (rows). Ha az elemezni kívánt adatok olyan táblázatban vannak, ami a 4.4. táblázat adatai, tehát egy adat koordinátái egy sort (row) foglalnak el, akkor a Cases (rows) beállítás a helyes. Fordított állásnál nyilvánvalóan a Variables (columns) lesz megfelelő. • Végül tekintsük a Variables gombot. Erre rákattintva tudjuk meghatározni, hogy az algoritmust az adatbázis mely koordinátáira kívánjuk futtatni. A vizsgált példában válasszuk ki mindkét változót (Terület, Népesség), azaz a klaszteranalízis során kétdimenziós vektorokat tekintünk.
166
4.16. ábra
A kijelölés után, az OK gombbal zárjuk be ezt az ablakot. Visszamenve a Cluster Analysis: Joining ablakhoz, az OK gombbal futtatjuk le az eljárást. Ennek hatására megjelenik a Joining Result ablak, ahol az Advanced opcióval az először megjelentnél részletesebb információk állnak rendelkezésre (lásd 4.17. ábra).
4.17. ábra
A felső tájékoztató mezőben megtaláljuk a változók (2) és az adatok számát (22), és a kezdetben beállított paramétereket. Az alsó részben különböző gombok különböző módon prezentálják a futás eredményét. A Horizontal hierarchical tree plot és a Vertical icicle plot között csak elrendezésbeli különbség van, mindegyik a klaszterek összevonását illusztrálja hasonlóan mint a 4.10. ábra. Tree Diagram f or 22 Cases Single Linkage Euclidean distances Belize Salv ador Costa-Rica Panama Guatemala Honduras Nicaragua Suriname Uruguay Guy ana Ecuador Paraguay Bolív ia Kolumbia Peru Chile Venezuela Mexikó Argentína Kanada USA Brazília 0
1000
2000
3000
4000
5000
6000
Linkage Distance
4.18. ábra
Az olvasót arra bíztatjuk, hogy tapasztalja ki a végeredmény tálalásának különböző lehetőségeit. Itt csak felsorolásszerűen említjük meg, hogy melyik gomb mire jó. • Az Amalgamation schedule lehetőség mögött a klaszterek összekapcsolásának sorrendjét lehet nyomon követni. • A Graph of amalgamation schedule az egymás után összekapcsolt klaszterek távolságait szemlélteti. • A Distance matrix és Matrix gombok az alapadatok közti távolságokat mutatják meg. Itt jegyezzük meg, hogy a fentiek mind külön ablakban jelennek meg, így lehetőség nyílik akár az összes szemléltető eszköz vizsgálatára is. Problémát jelenthet, hogy az adatbázis elemeinek koordinátái különböző nagyságrendűek, így a távolságok megállapításakor bizonyos változók másokat „elnyomnak”. A vizsgált példában is felmerülhet az a kérdés, hogy a Terület és a Népesség mérőszámai között nagyjából egy nagyságrendnyi különbség
168 van. Természetesen az adatok „kozmetikázása”, például más mértékegységben való kifejezése ezen segíthet, de sokkal természetesebb, ha az adatokat koordinátánként (változónként) standardizáljuk (ennek leírását már felelevenítettük a Partíciós módszerről szóló fejezet végén). A Statistica programcsomagban a standardizálás közvetlenül rendelkezésre áll, ha a főmenüben a Data menüt választjuk, majd a megjelent új fejlécen a Standardize lehetőséget választjuk. Ekkor a
4.19. ábra
ablakban tudjuk beállítani a standardizálni kívánt változókat és adatokat.
4.4.2. K-means clustering A most következő számítógépes algoritmus a k-közép eljárás néven leírt általános elméleti módszer egy reprezentánsa. Eléréséhez a 4.14. ábra ablakjában a K-means clustering lehetőséget kell kijelölni.
4.20. ábra
4.21. ábra
A megjelenő ablakot az Advanced „billentyű” lenyomásával kiterjeszthetjük, mindkét verzió megfigyelhető (4.20. ábra). A megjelenő kép ismérvei az elemzéshez szükséges legfontosabb beállításokat, paramétereket tartalmazzák, illetve ezek módosításait itt érhetjük el. Tekintsük át röviden őket. • A Variables gombbal, akárcsak az előző algoritmusnál, a figyelembe veendő változók állíthatók be. • A Cluster címszó esetén a táblázat tájolását lehet rögzíteni. Ha az adatbázis orientációja megegyezik a mi példánkban levővel, akkor a Cases (rows) beállítás a helyes, egyébként a Variables (columns). • Talán a legfontosabb, hogy ennél a módszernél előre meg kell adni a végeredményként kijövő klaszterek számát (Number of clusters). Világos, hogy több változat kipróbálása után tudunk majd dönteni a végsőnek tekintettről. • A Number of iterations címszó alatt az egymás utáni iterációk számát lehet módosítani. Nyilvánvaló, hogy minél nagyobb számot állítunk be, annál pontosabb lehet az output, viszont a túl nagy érték (főleg nagyadatbázis esetén) túlontúl időigényes lehet.
170 A specifikáció után az OK gombra kattintva ismét megjelenik az
4.22. ábra
ablak. Mindkét változót bejelölve, majd tovább menve a következő ablak már informatív jellegű (ismét az Advanced verziót választva).
4.23. ábra
A felső részben megjelennek a beállított paraméterek, továbbá az is, hogy az eljárás (a beállított maximális 10-ből) egyetlen iterációt futtatott végig a végeredmény eléréséhez (a második iteráció során nem volt változás). A statisztikai elemzés lehetőségek közül emeljük ki a Graph of means opciót,
amely az egyes klaszterek átlagait változónként (koordinátánként) szemlélteti (lásd 4.24. ábra). Plot of Means for Each Cluster 14000 12000 10000 8000 6000 4000 2000 0 -2000 -4000 Terület
Népesség Variables
Cluster 1 Cluster 2
4.24. ábra
A legfontosabb ismereteket a Members of each cluser & distances menüpont kiválasztásával kaphatjuk meg, ugyanis itt látható a végeredmény, hogy melyik klaszter melyik elemeket tartalmazza, továbbá meg vannak adva az egyes elemek távolságai a klaszterközépponttól. Mivel eredetileg két klasztert állítottunk be, így két különböző táblázatot kapunk, ezek megjelenítése alább látható (4.25. ábra). Végezetül elvégezzük az előbbi vizsgálatot 3 klaszterrel. A kapott új klaszterek közül az első megegyezik az előző esetben ( = 2) kapott első klaszterrel. Tehát a módosítás azzal járt, hogy a második klaszter lett felosztva két részre, ezt szemlélteti a 4.26. ábra. Gyanítható, hogy a standardizálás nélkül végrehajtott elemzést elsősorban a Terület változó határozta meg, mivel a Népesség változó adatainak nagyságrendje általában egy-két nagyságrenddel kisebb annál. Az olvasóra bízzuk annak vizsgálatát, hogy a standardizálás milyen mértékben befolyásolja az előbb kapott kimenetet.
172
4.25. ábra
4.26. ábra
Felhasznált irodalom [1] [2]
[3]
[4] [5] [6] [7]
[8]
[9]
[10] [11] [12] [13] [14] [15] [16] [17]
Bognár Cs. – Halmosi M. (2009): Jövedelemegyenlőtlenség alakulása a rendszerváltástól napjainkig, OTDK dolgozat. Csanády V. (1994): Számítógépre konvertált nem hagyományos regressziós eljárások faipari - erdészeti kutatási és műszaki problémákhoz. Műszaki doktori értekezés, EFE, Sopron, 233 p. Csanády V. (2004): A sík- és hegyvidéki erdei fenyő főbb fizikai paraméterei kapcsolatának összehasonlítása többváltozós függvénnyel. PhD. értekezés, NyME. Sopron, 91 p. Dévényi D. – Gulyás O. (1988): Matematikai statisztikai módszerek a meteorológiában, Tankönyvkiadó, Budapest. Fazekas I. (szerk.) (1997): Bevezetés a matematikai statisztikába, egyetemi jegyzet, Kossuth Egyetemi Kiadó, Debrecen. Füstös L., Meszéna Gy., Simonné Mosolygó N. (1986): A sokváltozós adatelemzés matematikai módszerei, Akadémiai Kiadó, Budapest. Kehl F. és Sipos B. (2009): A telítődési, a logisztikus és az életgörbe alakú trendfüggvények becslése Excel parancsfájl segítségével. Statisztikai Szemle, 87. évf. 4. sz. 381-411.p. Münnich Á., Nagy Á., Abari K. (2006): Többváltozós statisztika pszichológus hallgatók számára. Bölcsész Konzorcium, Debrecen. (http://psycho.unideb.hu/statisztika) ISBN 963 9704 04 0. Rédei K., Csiha I., Keserű Zs., Kamandiné Végh Á. és Rásó J. (2011): Nyírségi akácosok táji fatermés táblája. Erdészettudományi Közlemények 1.évf.1.sz.115-124.p. ERTI. STATISTICA 11, STATISTICA statisztikai adatelemző, analitikai szoftvercsalád, StatSoft. STATISTICA 11 software HELP. Sváb J. (1979): Többváltozós módszerek a biometriában. Mezőgazdasági Kiadó, Budapest. Szűcs I. (szerk.) (2002): Alkalmazott statisztika. Agroinform Kiadó, Budapest. 447-476.p. Többváltozós statisztika közgazdászoknak http://www.inf.unideb.hu/ valseg/dolgozok/ispany/Multivar/main.html. Dr. Tokodiné Újházi A. (1998): Földrajz a számok tükrében, Tóth Könyvkereskedés és Kiadó Kft. W. Jahn – H. Vahle (1974): A faktoranalízis és alkalmazása. Közgazdasági és Jogi Könyvkiadó. Gál J. (1986): Új módszerek az erdők fatermésének meghatározására és előrejelzésére. Kandidátusi értekezés. EFE. Sopron.