Többváltozós gazdasági problémák statisztikai elemzése Előadó: Dr. Balogh Péter
PROBLÉMAFELVETÉS, ALAPKÉRDÉSEK ¾A
természet, társadalom bonyolult, összefüggő rendszerével adhatók meg
jelenségei tényezők
¾ Az
egyváltozós módszerek egy-egy tényező összefüggéseit vizsgálják
¾A
többtényezős vizsgálatokkal több változó kölcsönös egymásra hatását tárjuk fel
Európai országok fehérjefogyasztása
PROBLÉMAFELVETÉS, ALAPKÉRDÉSEK ¾ Mely élelmiszerféleségek fogyasztása áll
összefüggésben egymással?
¾ Milyen irányúak az összefüggések? ¾A
szoros összefüggésben álló élelmiszerféleségek csoportosíthatóak?
¾ Hogyan
rangsorolhatjuk az országokat fehérjefogyasztásuk alapján?
¾ Van-e
olyan élelmiszer, amely döntő mértékben meghatározza a fogyasztást?
PROBLÉMAFELVETÉS, ALAPKÉRDÉSEK ¾ Elkülöníthetők e hasonló országcsoportok,
régiók a fehérjefogyasztásuk alapján? ¾ Van-e speciális csoportosítási lehetőség? ¾ Mekkora
valószínűséggel sorolhatók egyes osztályokhoz az országok?
¾ Újabb
az
országok adatai esetén ezen országok melyik csoporthoz tartoznának?
PROBLÉMAFELVETÉS, ALAPKÉRDÉSEK Alapadat mátrix
Az i-edik egyed j-edik jellemzőjének megfigyelt értéke
PROBLÉMAFELVETÉS, ALAPKÉRDÉSEK A vizsgálatok fő céljai ¾ P db változó összefüggésének feltárása ¾ Összefüggő változócsoportok keresése ¾ Csoporton
belüli kapcsolatok irányának megadása
szorosságának,
¾ Változócsoportok mögötti közös ok keresése ¾ A változószám csökkentése, egységek ábrázolása
a csökkentett változókkal ¾ Megfigyelési egységek csoportosítása
PROBLÉMAFELVETÉS, ALAPKÉRDÉSEK Független háttérváltozókat képezünk A főkomponens (faktor-) koordináták mátrixa
FŐKOMPONENS ANALÍZIS ¾ Induljunk ki egy n x p típusú X alapadat
mátrixból
¾ A megfigyelési egységek száma legyen
minimum 3-szorosa a változók számának
¾ Egészítsük ki az X mátrixot a változók
átlaga illetve szórásával (j=1,…,p)
FŐKOMPONENS ANALÍZIS ¾ Két változó kovarianciája
¾ Korrelációs együttható
FŐKOMPONENS ANALÍZIS ¾ Standardizálással
mértékegység egyszerűsíthetők
kiküszöbölhető a hatása, a számítások
¾ A korrelációs mátrix a Z=(zij) standardizált
alapadatmátrixból is elkészíthető (T=Transzponálás)
FŐKOMPONENS ANALÍZIS Minden további vizsgálat kiindulópontja az R mátrix, az elemzés akkor végezhető el, ha a változók korrelálnak Áttérünk a főkomponensek C1,…, Cp koordinátarendszerébe, a változók szórása C1 mentén a legnagyobb, monoton csökken, a legkisebb Cp mentén, C1,…, Cp korrelálatlanok
FŐKOMPONENS ANALÍZIS A két változós eset geometriai szemléltetése
FŐKOMPONENS ANALÍZIS A két változós eset geometriai szemléltetése
FŐKOMPONENS ANALÍZIS
A megfigyelési változók összes varianciáját teljesen p db főkomponens magyarázza meg, ebből is kiválasztható kevesebb számú főkomponens, melyekből származik döntő részben a változók változékonysága (varianciája)
FŐKOMPONENS ANALÍZIS A matematikai modell alakja
FŐKOMPONENS ANALÍZIS ¾ Az
aik együttható jelzi a k-adik főkomponens jelentősségét (súlyát), innen a faktorsúly elnevezés is
¾ Az aij faktorsúly az i-edik megfigyelési
változó és a j-edik főkomponens kapcsolatának erősségét kifejező korrelációs együtthatóval egyenlő
A fehérjefogyasztás vizsgálata A korábban bemutatott alapadat mátrixot SPSS 10.0 programmal elemeztük
A fehérjefogyasztás vizsgálata A változók és a főkomponensek kapcsolatának vizsgálata
A fehérjefogyasztás vizsgálata A főkomponensek értelmezése Az első főkomponens értékét a tojás, tej, hal változócsoport és a cereália ellentétes hatása határozza meg (táplálék helyettesítési komponens) A második komponens értékét a hús és zöldséggyümölcs fogyasztás határozza meg azonos irányú hatással (táplálkozási szokás komponens)
A fehérjefogyasztás vizsgálata Az országok elhelyezkedése a főkomponensek szerint
FAKTORANALÍZIS ¾ Az
eljárás a megfigyelési változók többségére ható közös tényezőket keres
¾ A faktorok a változók közös varianciáját
magyarázzák ellentétben
¾A
a
főkomponens
analízissel
főkomponens analízis tekinthető a faktoranalízis egyik megvalósítási módjának is, célja inkább az adatredukció, mint mögöttes befolyásoló hatások keresése
FAKTORANALÍZIS A matematikai modell
z1,…zn standardizált változók, F=közös faktor, U (Unique) = egyedi faktor a=faktorsúly
FAKTORANALÍZIS Kommunalitás (h2)= egy adott változó szórásnégyzetének a közös faktorok által együttesen megmagyarázott része (a faktorsúlyok négyzetösszege)
KUKORICA TERMELÉSI TÉNYEZŐINEK ELEMZÉSE E = A szántóföld aranykorona értéke (ar.K/ha) F = a talajtípus (pl: szikes, homok, agyag) S = a szervestrágyázás éve M = a monokultúra tartama (év) Vt = vetési idő (4.,5.,6. hónap 1.,2.,3. dekád) Z = tőszám, ezer db/ha N = nitrogén műtrágya, kg/ha P = foszfor műtrágya, kg/ha K = kálium műtrágya, kg/ha
KUKORICA TERMELÉSI TÉNYEZŐINEK ELEMZÉSE ¾ C1 = téli csapadék, 1-4. hónap, mm ¾ C2 = tavaszi csapadék, 5-6. hónap, mm ¾ C3 = nyári csapadék, 7-8. hónap, mm ¾ C4 = őszi csapadék, 9-11. hónap, mm ¾ G = gépesítettség ¾ Q = a kukorica átlagos termése, t/ha
KUKORICA TERMELÉSI TÉNYEZŐINEK ELEMZÉSE A faktorsúlyok mátrixa
KUKORICA TERMELÉSI TÉNYEZŐINEK ELEMZÉSE A faktorok megnevezése és szerepe
EREDMÉNYEK ÉRTÉKELÉSE ¾A
faktorok az összes változó közös szórásnégyzetét magyarázzák 75%ban, a maradék 25% az egyedi faktoroknak köszönhető ¾ A tőszámra különös figyelmet kell fordítani ¾A műtrágyák a termést 22%ban befolyásolják ¾ A vetési idő és a téli csapadék egy faktorba kerülése arra utal, hogy a kukorica vetésére legalkalmasabb idő a 4. hó első dekádja
EREDMÉNYEK ÉRTÉKELÉSE ¾ Az 5. és 6. faktor szerepe közelítőleg
egyezik a 4. faktoréval ¾ Az öntözéses területeken fontos a nyári csapadék mennyisége (6. faktor) ¾ A gépesítettség aránya nem túl jelentős, a gépesítettség még nem hozza magával a több termelést ¾ A szervestrágyázás szerepe megegyezik a gépesítettség faktor szerepével
KLASZTERANALÍZIS Amennyiben egy N elemű sokaságot egy osztályozó változó szerint kívánunk csoportosítani, akkor a sokaság elemeinek egy adott ismérv szerinti sorba rendezéséről van szó. Több osztályozó változó esetén a probléma bonyolultabb, megoldására fejlesztették ki a klaszteranalízist.
KLASZTERANALÍZIS A klaszterelemzés fő célja, hogy a megfigyelési egységeket viszonylag homogén csoportokba sorolja a kiválasztott változók alapján úgy, hogy az adott csoportba hasonlítsanak
tartozó egymásra,
csoportok tagjaitól
megfigyelési de
egységek
különbözzenek
más
KLASZTERANALÍZIS A klaszterelemzés menete: ¾ A probléma megfogalmazása ¾ A távolsági mérték kiválasztása ¾ A klasztermódszer kiválasztása ¾ Döntés a klaszterek számáról ¾ A klaszterek értelmezése és jellemzése ¾A klaszterelemzés érvényességének
ellenőrzése
KLASZTERANALÍZIS A probléma megfogalmazása: Kiválasztjuk a csoportképzés alapjául szolgáló változókat. A nem megfelelő változó bevonása ronthat a bevonása nélküli jó csoportosításon. A változók kiválasztása történhet korábbi kutatások alapján, elméleti megfontolások vagy a kutató saját döntése, intuíciója alapján.
KLASZTERANALÍZIS A távolsági mérték kiválasztása: Az egységek közötti hasonlóságot azok közötti távolsággal mérjük. Különböző távolságmértékek használata eltérő megoldásokhoz vezethet, így célszerű különböző mértékeket használni, úgy elvégezni az elemzést, majd az eredményeket összehasonlítani.
KLASZTERANALÍZIS Távolsági mértékek: Euklideszi
Csebisev
Manhattan
Pearson
KLASZTERANALÍZIS A klasztermódszer kiválasztása : A klasztereljárások lehetnek hierarchikusak és nem hierarchikusak. A hierarchikus módszereket két csoportra bonthatjuk, mint agglomeratív (összevonó) és divizív (felosztó) eljárások.
KLASZTERANALÍZIS Az agglomeratív eljárás menete: Kiindulunk n db egyelemű klaszterből. Megkeressük a távolság mátrix minimális elemét, vagyis a két leghasonlóbb klasztert. Szabadságunk van a távolsági mérték megválasztásában. ¾ A két klasztert összevonjuk, a klaszterszámot csökkentjük 1-gyel. ¾ A 2. és a 3. lépést annyiszor végezzük el, mígnem minden elem egy klaszterbe kerül. ¾ ¾
KLASZTERANALÍZIS Két klaszter távolságának képzési technikája: ¾ ¾ ¾ ¾ ¾ ¾
Egyszerű lánc módszer Teljes lánc módszer Centroid módszer Medián módszer Csoportátlag módszer Ward módszer
KLASZTERANALÍZIS Egyszerű lánc módszer: A módszer másik elnevezése a legközelebbi szomszéd módszer, mely utal a távolságképzés technikájára. Két klaszter távolságát a két csoport legközelebbi tagjai közötti távolságként definiálja.
KLASZTERANALÍZIS Teljes lánc módszer: A módszer másik elnevezése a legtávolabbi szomszéd módszer. Két klaszter távolságát a két csoport legtávolabbi tagjai közötti távolságként definiálja.
KLASZTERANALÍZIS Centroid módszer: A klaszterhez tartozó egyedek átlagát nevezzük centroidnak, két klaszter távolsága pedig egyenlő a centroidjaik távolságával.
KLASZTERANALÍZIS Medián módszer: A centroid módszernek az erősen eltérő elemszámú klaszterek összevonásából adódó problémáját igyekszik feloldani a Gower-féle medián módszer. Az I és J klaszterek egyesítése után kapott új klaszter és a K klaszter távolsága:
KLASZTERANALÍZIS Csoportátlag módszer: Átlagoljuk az egyik csoport minden elemének távolságát a másik csoport elemitől, majd azt a két csoportot vonjuk össze, amelyek esetén az objektumok közötti átlagos távolság minimális.
KLASZTERANALÍZIS Ward módszer: Ward szerint a csoportok összevonásánál információveszteség keletkezik. A csoportosítás döntésfüggvénye ezt az információveszteséget minimalizálja. Az információ-veszteséget Ward úgy definiálta, mint az elemek csoportátlaguktól való eltéréseinek négyzetösszegét (csoporton belüli variancia). A cél ennek minimalizálása.
KLASZTERANALÍZIS A nem hierarchikus klasztermódszer: ¾ A nemhierarchikus módszerek diszjunkt klaszterek
meghatározására szolgálnak. A klaszterek száma az
egyes
módszerek
során
alakul
ki,
módszereknél előre megadjuk paraméterként.
más
KLASZTERANALÍZIS ¾ A
hierarchikus
és
nemhierarchikus
módszerek
között az az egyik lényeges különbség, hogy míg a hierarchikus eljárások esetén ha két elem egy csoportba kerül, akkor a továbbiakban már együtt is
marad,
esetén
addig
lehet,
kerülnek át.
a
hogy
nemhierarchikus késöbb
külön
eljárások csoportba
KLASZTERANALÍZIS McQueen-féle k-középpontú módszer: ¾
A centroid kritérium alapján dolgozik, s állandó számú klaszterrel működik.
¾
Az eljárás során teljesülnie kell annak a feltételnek, hogy minden objektum egyszerre egy és csak egy klaszterbe kerülhet és a klaszterek száma az eljárás során ne változzon meg.
KLASZTERANALÍZIS McQueen-féle k-középpontú módszer menete: 1. Kiindulunk az első k elemből, mint magpontból 2. Az elemeket ahhoz a klaszterhez soroljuk,
melynek magpontjához a legközelebb esnek. 3. Minden elem besorolása után a klaszterek centroidjait kiszámítjuk. 4. Az új magpontoknak megfeleltetjük a centroidokat, és az adatokat újra hasonlítjuk a már megváltozott magpontokhoz. A 3. és 4. lépést mindaddig ismételjük, mígnem a klaszterek állandósulnak.
KLASZTERANALÍZIS A klaszterelemzés érvényességének ellenörzése: ¾ Más távolságmértéket alkalmazunk. Az így kapott eredményeket összehasonlítjuk ¾ Különböző klasztereljárásokkal dolgozunk ¾ Az adatokat véletlenszerűen két almintára bontjuk, s mindkettőre elvégezzük az elemzést ¾ Véletlenszerűen elhagyunk változókat, és csökkentett változószámmal végezzük el újra az elemzést ¾ Nemhierarchikus elemzéseknél futtassuk az elemzést az esetek különböző sorrendjével, mígnem stabilizálódik a megoldás
ESETTANULMÁNY Európai országok fehérjefogyasztása .
Európai országok fehérjefogyasztása Ward módszer szerinti csoportosítás sémája
Európai országok fehérjefogyasztása Egyszerű lánc módszer szerinti csoportosítás sémája
Európai országok fehérjefogyasztása McQueen módszer szerinti csoportosítás sémája