Statisztika 2000 Molnár D. László Tartalom Megfigyelés, félig-kísérlet és kísérlet ........................................................................................ 2 Hatásvizsgálatok logikai háttere................................................................................................. 6 Hatásvizsgálatok típusai:........................................................................................................ 6 Félig-kísérletek....................................................................................................................... 8 Érvényesség................................................................................................................................ 9 A belső validitást fenyegető főbb tényezők: .......................................................................... 9 Megbízhatóság ......................................................................................................................... 10 Mintavétel................................................................................................................................. 10 Mintvétel típusai................................................................................................................... 10 Mintavétel számítógépes szimulációja................................................................................. 11 Kombinatorika.......................................................................................................................... 14 Párok..................................................................................................................................... 14 Elem-r-esek .......................................................................................................................... 14 r golyó elhelyezése n dobozban ........................................................................................... 15 Mintavétel a sorrend figyelembevételével ........................................................................... 16 Részsokaság és partíció........................................................................................................ 17 Binomiális eloszlás............................................................................................................... 17 Hipergeometrikus eloszlás ................................................................................................... 18 Valószínűségelmélet és matematikai statisztika ...................................................................... 19 Definíciók és szabályok ....................................................................................................... 19 Valószínűségszámításnál a rendszer ismert ......................................................................... 20 Valószínűségszámítás alapjai............................................................................................... 20 Feltételes valószínűség......................................................................................................... 22 Teljes valószínűség tétele..................................................................................................... 22 Bayes-tétel............................................................................................................................ 23 Sztochasztikus vagy statisztikai függetlenség...................................................................... 23 Differenciálás és integrálás ...................................................................................................... 24 Differenciálás ....................................................................................................................... 24 Integrálás .............................................................................................................................. 28 Leíró statisztika ........................................................................................................................ 29 Exploratív adatelemzés alapvető módszerei ............................................................................ 30 Aszimptotikus és komputer-intenzív módszerek ..................................................................... 33 Többváltozós statisztikai módszerek........................................................................................ 35 Klaszter elemzés....................................................................................................................... 35 Főkomponens elemzés ............................................................................................................. 46 Lineáris regresszió. Elméleti megfontolások ........................................................................... 48 Lineáris regresszió. Gyakorlati szempontok ............................................................................ 49 Kereszttáblák elemzése ............................................................................................................ 53 Függetlenségvizsgálat .............................................................................................................. 53 Nominális változójú többdimenziós kereszttáblák elemzése ................................................... 54 Loglineáris modellek............................................................................................................ 54 Ordinális változójú kereszttáblák elemzése ............................................................................. 55 Linear-by-linear asszociációs modellek ............................................................................... 55 CHAID-elemzés ....................................................................................................................... 56
1
Megfigyelés, félig-kísérlet és kísérlet A szociológiai kutatás egyik alapproblémája: a változók fölötti kontroll lehetősége megfigyelés, félig-kísérlet és kísérlet esetén. (Változóknak - más szóval valószínűségi változóknak - a véletlentől függő mennyiségeket nevezik. Gyakorlatilag változók a kérdőívben szereplő kérdések, például változó a kor, a nem, az iskolai végzettség, a foglalkozás stb.). A szociológiai kutatások rendszerint a megfigyelés és a kísérlet között, az ún. félig-kísérletek világában helyezkednek el. Módszertani szempontból a szociológiai kutatások egyik központi kérdése a változók kontrollálásának lehetősége, más szavakkal a külső zavaró hatások nagyságának megismerése, kiszűrése, kézben tartása, kontrollálása annak érdekében, hogy a kutatásból helyes, a valóságnak megfelelő következtetést lehessen levonni. Egyszerű megfigyelésnél a változók fölötti kontrollra lényegében nincs lehetőség, mert az események irányítják a megfigyelést, s a megfigyelő többnyire csupán passzív szereplője az eseményeknek. A megfigyelésből származó következtetések objektivitását növelheti, ha több helyen és több különböző időpontban időben történik a megfigyelés. Kísérletnél rendszereint a vizsgálati elrendezés biztosítja a következtetés objektivitását, de a társadalomtudományokban ilyen elrendezésre nem mindig van mód. A kísérletnél rendszerint két vagy több összehasonlítandó csoport van és tervszerűen a csoport egyik része részesül, másik része nem részesül valamilyen hatásban. Kísérletnél a csoportok tagjai véletlenszerűen kerülnek egyik vagy másik csoportba. A véletlen csoportba sorolás két alapvető módszere a 1. véletlen besorolás, random allocation vagy 2. véletlen kiválasztás, random sampling révén történhet. Véletlen besorolásnál adott személyek (például betegek egy csoportja)véletlenszerűen sorolódnak egyik vagy másik csoportba. Az egyik csoport kap gyógyszert, a másik nem. Véletlen kiválasztásánál a lakosságból véletlenszerűen kerül kiválasztásra minta, akiket kérdőív vagy más mérőeszköz segítségével megvizsgálnak. A kísérlet legegyszerűbb formájában csak egyetlen változóban van különbség a csoport(ok) között 1. példa: Állatkísérlet Egymáshoz hasonló állatokat véletlenszerűen egyik (A) vagy másik (B) csoportba soroljuk. Az (A) csoport tagjai kapnak, a (B) csoport tagjai nem kapnak valamilyen gyógyszert. A véletlen besorolás miatt minden más szempont (pl. súly, kor) szerint a két csoport lényegében véve megegyezik (nem különbözik szisztematikusan egymástól).
2
Kérdés, van-e hatása a gyógyszernek? Ha van különbség valamilyen mért paraméterben, például a vérnyomásban, akkor ez bizonyára a beavatkozás miatt volt, mert minden más tekintetben a két csoport azonos volt (nem különbözött szisztematikusan egymástól) 2. példa: Kémiai kísérlet. Lombikba anyagokat teszünk, és várjuk a kémiai reakció eredményét. Több kísérletet végzünk, de mindegyik kísérletben csak egyetlen dolgot változtatunk, pl. az egyik anyag mennyiségét növeljük, vagy a hőmérsékletet csökkentjük. Kérdés: a lombikból kinyert anyag milyen tulajdonságú? Jó-e a keletkezett anyag a számunkra vagy nem jó? Ha a hőmérséklet növelésével a keletkezett anyag tulajdonságai javultak, akkor később talán magasabb hőmérsékleten érdemes az ipari termelést folytatni. A kísérlet bonyolultabb formájában egyszerre több paramétert változtatunk. 3. példa: Bonyolult kémiai kísérlet (Box-Wilson módszer) Lombikba anyagokat teszünk, és várjuk a kémiai reakció eredményét. Több kísérletet végzünk úgy, hogy mindegyik kísérletben szisztematikusan több dolgot változtatunk, pl. egyszerre növeljük az egyik anyag mennyiségét és a hőmérsékletet csökkentjük. Több kísérlet alapján figyeljük a változás irányát, jellegét. Kérdés: a lombikból kinyert anyag milyen tulajdonságú? Legalább két ok miatt szükség van erre a bonyolult típusú kísérletre 1. Egyrészt olcsóbb, ha így esetleg kevesebb kísérletet kell elvégeznem. 2. Másrészt több tényező egyidejű megváltoztatása esetleg nem ugyanazt az eredményt adja, mint egy dologé. Több egyidejű hatás összefüggését kölcsönhatásnak, interakciónak is nevezik. Pl. A gyógyszernek van valamilyen hatása, B gyógyszernek is van valamiylen hatása, de ha a kettőt együtt beadjuk, új harmadik hatás jelentkezik (pl. fölerősítik, gyengítik egymás hatását, vagy méreg képződik). Ez felveti a később bemutatott többváltozós statisztikai módszerek alkalmazásának igényét. Félig-kísérletnél Félig-kísérletnél, mint amilyen a társadalomtudományos kutatások többsége, egyrészt egyszerű megfigyelést történik - etikai és technikai okok miatt valódi kísérlet nem mindig végezhető el, bár a diktatúrák és a különböző társadalmi berendezkedések is felfoghatók kísérletnek -, ugyanakkor a kísérleti elrendezéseknél használt módszereket is alkalmaznak a következtetések objektivitásának növelése érdekében. Mit jelent a megfigyelés? Például azt, hogy valamilyen kormányzati intézkedés (pl. családi pótlék intézményének bevezetése vagy összegének felemelése), vagy valamilyen piaci változás (pl. olajár emelkedés) rajtunk részben kívülálló hatásokat vált ki, s csupán az események regisztrálására van mód. Mi ezzel a probléma?
3
Például mi van akkor, ha nőtt a születésszám, és azt mondjuk, hogy ez az új családtámogatási rendszer következménye. Valaki azt mondja, hogy ez nem az új rendszer miatt van, hanem azért, mert közben csökkent az adó és emelkedett az életszínvonal, vagy egyidejűleg ilyen irányú szociálpolitikai kampány folyt. Mi van akkor, ha az olajár emelkedés ellenére nőtt az eladott gépkocsik száma? Lehet, hogy a géppark elöregedett és újakat kellett venni, vagy olcsóbb autók jöttek ki, vagy nőtt a GDP, a nemzeti jövedelem? Vagy csökkent az autó súlyadója? A probléma tehát az, hogy egyesek azt mondják, hogy valamilyen megfigyelt esemény ilyen és ilyen okok miatt volt, de mások esetleg azt mondják, hogy az más okok miatt következett be. Mit lehet ilyenkor tenni? A megfigyelésen alapuló vizsgálatokba a kísérletekre emlékeztető szisztematikus elemeket bevinni és így növelni a megfigyelés objektivitását. A fenti példában lehetséges, hogy felmérést (megfigyeléseket) végzünk a lakosság körében, majd pedig jövedelem, gépkocsi vásárlási magatartás, gépkocsi tulajdoni helyzet, gépkocsi súly és egyéb szempontok szerint szétválasztva elemezzük a kapott válaszokat. Azt a szisztematikus módszert, amellyel a megfigyelésbe a kísérletekre emlékeztető szisztematikus elemeket viszünk be, nevezzük a változók kontrollálásának. A változók kontrollálásának módszerei Ezek a módszerek sok ponton belépnek, így például már a mintavétel során megjelennek, és a kutatás végéig folytatódnak, különböző technikákkal. A változók kontrollálása történhet rétegzett mintavétellel, a vizsgálati elrendezés módjával (például eset-kontroll vizsgálattal, panel vizsgálattal), hatásvizsgálatokkal és statisztikai módszerekkel. Változók kontrollálása rétegzett mintavétellel Rétegzett minta esetén egy vagy több szempont szerint biztosítjuk bizonyos változók széleloszlását (marginális eloszlását). Például biztosítjuk, hogy ezer fős mintában pontosan 500 férfi és 500 nő legyen, vagy ezer emberből 333 60-99 éves, 333 30-59 éves, 334 18-29 éves legyen, vagy pontosan 40 %-a városi lakos legyen, ha ezeket tartjuk fontosnak valamilyen ok miatt. Rétegzett a minta, ha budapesti vizsgálatnál biztosítjuk, hogy minden kerületből legyen a mintában véletlenszerűen kiválasztva 50 ember. Országos vizsgálatban fontosnak tarthatjuk, hogy a legnagyobb városokból legyen elég megkérdezett. Mivel Miskolc lakossága az ország lakosságának 1 százaléka, ha 10 millió lakosból egyszerű véletlen mintavétellel kiválasztunk ezer főt akkor a mintában várhatólag 10 miskolci személy lesz. Ezért, ha valamilyen (pl. pénzügyi, egyéb) ok miatt azt szeretnénk, hogy a nagyvárosokból több ember legyen a mintában, akkor a mintát rétegezni kell, tehát előre rögzíteni kell, hogy például Miskolcon kérdezzenek meg 50 embert.
4
Változók kontrollálása eset-kontroll vizsgálattal Például a mintavétel során előre rögzítésre kerül, hogy 100 buszvezető vérnyomását meg kell mérni, mert feltehető, hogy a buszvezetés emeli a vérnyomást. A buszvezetők körében mért vérnyomás értékek összehasonlíthatók más csoportok, vagy a lakosság körében végzett vizsgálatok eredményeivel. Ha a buszvezetők körében magasabb a vérnyomás, mint egy másik csoportnál, mit jelent ez? Valóban magasabb a buszvezetők vérnyomása, vagy a buszvezetők idősebbek, mert idősebb korban a vérnyomás emelkedik, és nem a buszvezetés, hanem az idősebb kor „okozza” a vérnyomás emelkedését? Vagy a buszvezetők már eleve ideges természetűek, és ez okozza a vérnyomás emelkedését, tehát nem a buszvezetés, hanem a buszvezetők sajátos tulajdonsága okozza a vérnyomás emelkedését? Látható, hogy itt már a célok, a vizsgálat célja is megjelenik, rejtett vagy nyílt formában. Amennyiben a buszvezetők vérnyomása magas, ez rizikótényezőt jelent, és balesetveszélyt okozhat, ha a magas vérnyomás talaján esetleg hirtelen szívinfarktust vagy agyvérzést kapnak. A közlekedés alapvető biztonságáról és minőségbiztosításról van szó, egyebek mellett. A vizsgálatot nem öncélúan végezzük, hanem valamilyen meghatározott cél érdekébe. Mégis, a vizsgálatot lehetőleg pártatlanul kell elvégezni. A tudományos módszer lényege az átláthatóság és megismételhetőség. Hogyan lehet eldönteni, hogy a buszvezetőknek valóban magasabb-e a vérnyomása, mint a lakosságnak? A megfigyelésen, mérésen alapuló felmérésbe a kísérletekre emlékeztető szisztematikus elemeket bevinni és kontrollálni a megfigyelést. Például úgy, hogy felmérést végzünk a véletlenszerűen kiválasztott buszvezetők (eset csoport) és a buszvezetőnek jelentkező, állásra váró jelentkezők (kontroll csoport) között. Ez az esetkontroll vizsgálat. (Megjegyzés: Olyan kontroll csoportot még nem találtak, amelyik mindenkinek egyformán megfelel.) Mi a mérés? Lényegében összehasonlítás. Ha valaki 2 méter magas, ez azt jelenti, hogy az egységnek tekintett méterrudakat kétszer lehet mellette elhelyezni. Összehasonlítjuk a megfigyelést az etalonnal. A társadalomtudományos kutatásban például az egyik ember iskolai végzettségét és jövedelmét összehasonlítjuk a másik emberével. Változók kontrollálása panel vizsgálattal A panel vizsgálatoknál időben egymás után többször végzünk felméréseket ugyanazon személyek körében, és megfigyeljük, hogy van-e elmozdulás, változás valamilyen változó értékeiben, valamilyen mért paraméter szerint. Az esetleges változást megpróbáljuk összefüggésbe hozni bizonyos külső intézkedésekkel, eseményekkel. Változók kontrollálása hatásvizsgálattal A változók kontrollálásának egyik szisztematikus módszerét évek hosszú sora alatt a hatásvizsgálatok címszó alatt fogalmazták meg.
5
Változók kontrollálása statisztikai módszerekkel A változók kontrollálásának statisztikai módszereiről később, a többváltozós statisztikai módszerek tárgyalásánál esik szó.
Hatásvizsgálatok logikai háttere Valamely program vagy kampány hatásosságának meg-állapításához a legfontosabb annak összehasonlítása, hogy mi történt a program vagy kampány után, összehasonlítva azzal, hogy mi történt volna, ha az nem valósul meg. Jóllehet rendszerint örökre homályban marad, hogy mi történt volna, ha az események másként zajlanak le (counterfactual: a tényekkel ellentétes esemény), a program kezdetekor végzett mérésekkel és indikátorok kiszámításával ezt becsülni lehet. Így a program hatékonyságának elemzése lehetséges a jelenségek program előtt és után végzett vizsgálatával. A hatásvizsgálat elméleti megalapozása megfogalmaz-ható úgy, mint elgondolások szigorú és lényegretörő elrendezése, amely a megbízható következtetések levonásához szükséges.
Hatásvizsgálatok típusai: Jelölés: A: autonóm módon végzett vizsgálat (mintába került személyek kiválasztását nem befolyásolják a személyek tulajdonságai) C: a vizsgálat helyszínét központilag döntik el R: randomizáció (véletlen besorolás) T: esemény (kampány) időpontja E: kísérleti (experimental) csoport C: kontroll (control) csoport Y: vizsgált paraméter (pl. viselkedés) X: egyéb változók (pl. demográfiai jellemzők) 1. Legegyszerűbb vizsgálatok: 1.1. Egyszerű, egyszeri alkalommal végzett eset-tanulmány (One-shot case study) T
Y
2. Elemi félig-kísérleti elrendezések (Elementary quasy-experimental designs): 2.1. Elemi félig-kísérleti előtte-utána vizsgálati terv (Elementary quasy-experimental before-after design). Mérés a kampány előtt és után. Kontroll csoport nincs, háttérváltozók (demográfiai jellemzők) nincsenek:
A / C : Y 1 ... T ... Y 2
6
2.2. Elemi félig-kísérleti összehasonlító utánvizsgálat (Elementary quasy-experimental comparative posttest design). Mint az előző, de van kontroll csoport:
(A) :T YE A : YC 3. Összetettebb félig-kísérleti elrendezések (Quasi-experimental designs): 3.1. Félig-kísérleti változást összehasonlító vizsgálati elrendezés (Quasy-experimental comparative change design), az egyik gyakran alkalmazható típus. Mérés kampány előtt és után, kontroll csoport van, háttérváltozók (demográfiai jellemzők) is vannak:
(A) /C : X (A) /C : X
1E
1C
T YE YC
3.2. Félig-kísérleti megszakított idősoros vizsgálat (Quasy-experimental interrupted time series design). Több mérés kampány előtt és után, kontroll csoport nincs, háttérváltozók (demográfiai jellemzők) nincsenek:
A / C : Y 1 ... T ... Y T
1
3.3. Több mérés kampány előtt és után, kontroll csoport van, háttérváltozók (demográfiai jellemzők) nincsenek (Quasy-experimental comparative time series design):
( A ) / C : Y 1 E T Y (T
1) E
( A ) / C : Y 1C Y (T
1)C
4. “Megerősített” elrendezések (fortified designs): 4.1. Hasonlítás vonatkoztatási csoporthoz (Criterion population design). Olyan, mint 3.1, de az összehasonlítás alapja nem egy másik minta (kontroll csoport), hanem valamilyen vonatkoztatási csoport, például népszámlálás adatok :
( A ) / C : X 1E T Y E ( A ) / C : Y 1 CP Y CP 4.2. Részcél elrendezés (Subobjective design). Előbb megtörténik a kampány, majd a részcél vizsgálata, majd a fő cél mérése; a három egymásutániságából szubjektív oksági összefüggés véleményezése) T
S
Y
7
5. Valódi kísérleti elrendezések (Experimental designs) 5.1. Randomizált összehasonlító vizsgálat beavatkozást követően (R-comparative posttest design). Ez a legegyszerűbb hagyományos kísérlet. Randomizáció (véletlen besorolás) van, kísérleti és kontroll csoport kezdetben azonos, T beavatkozást követően a két csoport összehasonlítása történik meg az Y (például vérnyomás) paraméter szerint:
R : T YE R : YC 5.2. Randomizált összehasonlító vizsgálat beavatkozást követően háttérváltozók mérésével (R-comparative change design). Ez a fejlettebb hagyományos kísérlet. Randomizáció (véletlen besorolás) van, kísérleti és kontroll csoport kezdetben azonos, T beavatkozást követően a két csoport összehasonlítása történik meg az Y (például vérnyomás) paraméter szerint, de az adatok elemzése és az eredmények értelmezése jobban lehetséges a háttérváltozók mérésével és elemzésével:
R : X R : X
1E
1C
T YE YC
Félig-kísérletek Az ún. félig-kísérletekben (quasi-experiments) a személyek kiválasztása nem úgy történik, hogy a résztvevőket véletlenszerűen kísérleti és kontroll csoportba sorolják, mint az igazi kísérletekben, azonban az autonóm kiválasztási folyamat módját nem befolyásolják a résztvevők tulajdonságai. A személyek kiválasztása a program előtt és után véletlenszerűen történhet, ez azonban nem azt jelenti, hogy az emberekről véletlenszerűen eldöntik, hogy részesülnek vagy nem a hatásban. Részcélok, formatív és összegző hatásvizsgálat A végcélok a kampány tényleges végső céljára vonatkoznak, míg a részcélok közé azok a célok tartoznak, amelyeket el kell érni a kitűzött végső cél érdekében. A továbbiakban elsősorban azokat tekintjük részcélnak, amelyek eszköz jellegűek, tehát fontosak a kitűzött célok eléréséhez, de olyan célokkal is foglalkozunk, amelyek közvetett jellegűek vagy okokozati összefüggésekben a vizsgálat szempontjából nem játszanak szerepet, azonban mégis célszerű megvizsgálni egyéb okok miatt. Összegző hatásvizsgálat (summative evaluation) Ez a program eredetileg kitűzött végső céljait tekintve pusztán a végeredményt nézi valamilyen p-érték kiszámításával. Ha p értéke nagyobb, mint 0,05, akkor a programnak nincs hatása vagy az csupán a véletlennek tulajdonítható, látszólagos, ha pedig kisebb, mint 0,05, akkor az eredmény a programnak tulajdonítható. Példa Valamilyen kampányt tekintve a végcélok közé tartozik, hogy a válaszoló valamilyen kampány hatására többet tett-e a kampány végcéljának megvalósulása érdekében.
8
Formatív hatásvizsgálat (formative evaluation) A formatív hatásvizsgálat a részcélokat tekintve adhat információt a program hatásáról. Még akkor is, ha a program eredeti célja nem valósult meg, de sok olyan részcél igen, amely a jövőben további programok kiinduló pontja, összességében a program sikeresnek minősíthető. A formatív hatásvizsgálat (formative evaluation) eredményeként egyrészt bepillantást nyerhető az események közötti kapcsolatokba, a hatásmechanizmusokba és változtatások hajthatók végre a program folyamatában is. Ez hasznos lehet az eredmények általánosításánál más területeken vagy a programtól eltérő elrendezésekben is. Az eszköz jellegű részcélok közé tartozik, hogy látta a kampány képeit, elolvasta a hozzá kapcsolt feliratokat, sejtette, hogy mi volt a célja annak, hogy ezeket a képeket bemutatták, és arról is volt elképzelése, hogy kik rakhatták ki ezeket a képeket. A közvetett jellegű részcélok között említhető, hogy a válaszolót személy szerint érinti-e közvetlenül a kampány célja, és konkrétan hogyan, kedvezően vagy kedvezőtlenül érinti. Az is a közvetett részcélok közé tartozik, hogy megállapítsuk, mely médián keresztül lehet a kampány sikere érdekében az embereket legjobban elérni, és hogyan szegmentálható a lakosság a kampánnyal kapcsolatban.
Érvényesség Érvényesség (validity) az, hogy vajon azt mérjük-e, amit mérni szeretnénk Tartalmi érvényesség (Content validity) – definiálni kell, mit értünk a használt fogalmak alatt, vizsgálat elméleti megalapozása szükséges Névleges érvényesség (Face validity) – a „felszínen” azt mérjük-e, amit kell Belső érvényesség (Internal validity) – a vizsgálat logikus, oksági összefüggések feltárására alkalmas Külső érvényesség (External or criterion validity) – más vizsgálatokkal összhangban van a mérés Jósló érvényesség (Predictive validity) – jövőbeli teljesítményre is vonatkozik a jelen mérési eredmény (predikció) „Összehasonlító” érvényesség (Concurrent validity) – régi és új módszer azonos eredményt ad Összetétel szerinti érvényesség (Construct validity) – a vizsgált szempont szerint két csoport jól elkülönül egymástól, és ez statisztikailag bizonyítható
A belső validitást fenyegető főbb tényezők:
Események (history) – probléma: ha nincs kontroll csoport Külső események (external events) Tesztelés (testing) – vizsgálat hatása Érés (maturation) – belső fejlődés, minta szelektív változása Regresszió (regression) – minta ciklikus vagy epizódikus változása Lemorzsolódás (attrition) – minta szelektív csökkenése Kiválasztás (selection bias) – probléma, ha nincsenek háttér változók Kísérleti és kontroll csoport kezdeti különbözősége Csoportok nem véletlenszerű kiválasztása (torzítások, reprezentativitás hiánya) Szennyezés (contamination) – minta csoportokba olyanok is kerülnek, akik nem abba a csoportba valók, pl. kísérleti csoportba kontroll csoport tagjai Felejtés (recall bias) – régi események 9
Megbízhatóság Megbízhatóság (reliability) – megbízható egy mérés, ha ismételt mérés esetén hasonló eredményt kapunk Stabilitás vagy test-pretest reliability (újból mérésnél hasonló eredmény) Ekvivalencia vagy alternate-form reliability (split-halves method, ill. időben többször ismételt vizsgálat) Homogenitás vagy internal consistency – az egyes tételek azonos dologra vonatkoznak, azonos dolgot mérnek Interobserver vagy interrater megbízhatóság (interobserver or interrater reliability) egyes megfigyelők közötti különbségek nagysága Intraobserver vagy intrarater megbízhatóság (intraobserver or intrarater reliability)egy megfigyelőn belül a különbségek nagysága
Mintavétel Az erőforrások szűkössége miatt rendszerint nincs mód minden ember véleményét megtudakolni, hanem közülük véletlenszerűen vett mintán történik a mérés.
Mintvétel típusai Nem véletlen minták 1. .Kényelmes minta (convenience sampling) - bárki önkényesen a mintába kerülhet Példa: 1.1. "Tipikus kényelmes minta". Példa: ízlelés vizsgálat - összegyűjtenek valahonnan 20 embert, fele kóstolja az egyik anyagot, másik fele a másik anyagot (ez nemigen alkalmas tudományos kvöetkeztetésre) 1.2.. "Nem tipikus kényelmes minta": véletlen besorolású minta - ez a helyes tudományos következtetés eszköze lehet, mert bár nem reprezentatív, de véletlenszerű! Példa: klinikai vizsgálat - 20 beteg van a belosztályon, véletlenszerűen osszuk őket két csoportba, az egyik csoport gyógyszert, a másik csoport placebot kap 2. Hólabda minta - kérdezett szóljon másoknak is vagy adjon ötletet hasonló személyek megtalálásához 3. Kvóta minta - "lasszóval" kerítsenek valahonnan 20 főiskolát végzett nőt és 20 főiskolát végzett férfit a mintába 4. Fókusz csoport - legyen valahonnan 20 ember és kérdezzük ki őket, beszélgessünk el velük strukturált interjú keretében Véletlen minták 1. Egyszerű véletlen mintavétel (generált valódi véletlen számok segítségével) 2. Szisztematikus véletlen mintavétel (minden x-ediket kiválasztva, például válasszuk ki egy listából minden századik embert) 3. Rétegzett minta (előre rögzített marginális eloszlások mentén, például előre rögzítjük, hogy minden kerületből egyenlő számú személyt kérdezünk meg)
10
4. Többlépcsős minta (először válasszunk településeket, másodszor a talapüléseken belül háztartásokat, harmadszor a háztartáson belül személyt) 5. Klaszter-minta (egész háztartás tagjainak megkérdezése) Véletlen minta két alapvető típusa: Véletlen kiválasztás tulajdonsága: reprezentativitás van/lehetséges alkalmazás: szociológiai vizsgálat
Véletlen besorolás tulajdonsága: nincs reprezentativitás alkalmazás: klinikai vizsgálat
Mintanagyság meghatározása Két csoport (például városi/vidéki vagy férfi/nő) és két lehetséges kimenetel (egy kérdésre adott válasz igen/nem) esetén:
n
p ( 100 p ) E 2
ahol n=szükséges mintanagyság p=adott állapot előfordulásának valószínűsége, százalék (például az igen válaszok aránya 20 %) E=maxiálisan megengedett standard hiba
Mintavétel számítógépes szimulációja A mintavétel egyrészt csökkenti a költségeket (nem kell mindenkit megkérdezni), másrészt viszont hibaforrás lehet. A mintavételt és az azzal kapcsolatos hiba nagyságát számítógéppel szimulálni lehet. Példa Ezer ember, köztük 500 nő és 500 férfi lakik egy faluban. Ha 100 fős véletlen mintát veszünk, mekkora a valószínűsége, hogy a mintában mindenki nő lesz? Más szavakkal: Mekkora a valószínűsége annak, hogy ha egy urnában (edényben) 500 fehér és 500 fekete golyó van, és véletlenszerűen kihúzunk (egymás után kiveszünk) belőle visszatevés nélkül 100 golyót (a kivett golyót nem tesszük vissza; lásd Kombinatorika c. részt), mind a 100 golyó fehér lesz? 1. megoldás Hipergeometrikus eloszlás (l. később a Kombinatorika c. részben) - bonyolult képlet alkalmazásával. 2.a. megoldás Fizikailag beteszünk egy urnába 500 fehér és 500 fekete golyót és kihúzunk belőle 100 golyót. Megismételjük ezt az eljárást ezerszer (kísérletek). Megnézzük, hogy az ezer kísérletből hány esetben fordult elő az az esemény, hogy pontosan száz fehér golyó van a kihúzott száz golyó között. Az előfordulások számát elosztjuk 1000-rel és így megkapjuk annak a valószínűségét, hogy ilyen körülmények között ez az esemény bekövetkezik.
11
2.b. megoldás Mivel ez az eljárás nagyon munkaigényes, számítógéppel szimulálhatjuk ezt. A számítógép 5 másodperc alatt megadja az eredményt. Így nem kell bonyolultnak tűnő formulákkal bajlódni, sem rengeteg kísérletet kézzel elvégezni, mégis pontos eredményt kaphatunk. Ha nem elég pontos az eredmény, a szimulációk (mintavételek) számát növelhetjük, például ezerről tízezerre. A fentiek számítógépes szimulációjának lehetséges programlistája a következő: ' (idézőjel) jelöli a megjegyzéseket (kommentár), amelyek nem tényleges utasítások, a többi programutasítás. 1. Példa '-------------------------------------------------------------'Programlista (Resampling stats): 'hiperge1.sta '500 fehér és 500 fekete golyóból kiveszünk 100-at visszatevés nélkül. Mi a valószínűsége, 'hogy mind a 100 fehér lesz? Az alábbi utasítás szerint egy urnába beteszünk 500 fehér és 500 'fekete golyót, más szavakkal legyen a olyan vektor (számsorozat), amelyben 500 db 1-es és '500 db 0 van, tehát a=(1,1,1,…..,0,0,0), majd 1000-szer ismétlődő ciklus utasítás következik URN 500#1 500#0 a REPEAT 1000 shuffle a b
take b 1,100 c COUNT c=1 d SCORE d z END HISTOGRAM z count z=100 k DIVIDE k 1000 kk PRINT KK
'1000-szer ismételje END-ig 'keverje meg az a vektoban lévő 1000 db 1 és 0 számokat és 'a kevert számvektort tegye b-be 'így most b 1000 elemű számvektor, de a 0 és 1 'összekeverve van benne 'vegyen b-ből egy 100 elemű mintát visszatevés nélkül és 'az eredményt tegye a 100 elemű c vektorba 'számolja meg, hogy c-ben hány db 1-es van és az eredményt 'tegye d-be 'jegyezze meg d értékét, és őrizze meg z-ben az '1-től 10 ezerig tartó minden egyes kísérletben; 'z most 10 ezer elemű vektor
'készítsen hisztogramot z-ről 'számolja meg, hogy hányszor fordult elő a 10 ezer kisérlet közül, 'hogy pontosan 100 fehér golyó 'volt (100 db 1-es), 'az eredményt tegye k-ba 'ossza el ezt el a mintavételek számával, ezerrel nyomtassa ki az eredményt
Eredmény: Kk=0 (Ennyi a fenti esemény valószínűsége) Az eredményt hisztogramon is megszemlélhetjük:
12
Látható, hogy nagyon kicsi tehát a „nagyon rossz” minta vételének a valószínűsége (Kk=0). A hisztogramon az is látható, hogy az esetek többségében a mintában a fehér golyók száma 40 és 60 (40-60 %) között mozog, ha ténylegesen 50 % a fehér golyó húzásának a valószínűsége az alapsokaságban (populáció), amiből a mintát vettük. Mivel a valóságra általában mintavétellel következtetek (még az egyszerű megfigyelés is annak tekinthető!) és ez valamiféle számlálást, strigulázást von maga után (ez a statisztika), kérdés, hogy mi van, ha a minta nagyobb? 2. Példa Az előbbi példánál maradva legyen most a kivett minta nagysága most nagyobb, 100 helyett 500. Vajon most is 40-60 százalék között mozog az 1-esek aránya, tehát 0,40*500=200 és 0,60*500=300 között? Programlista: 'hiperge2.sta (Resampling stats) '500 fehér és 500 fekete golyóból kiveszünk 500-at visszatevés nélkül. Mi a valószínűsége, 'hogy 200 fehér lesz? URN 500#1 500#0 a REPEAT 1000 shuffle a b take b 1,500 c COUNT c=1 d SCORE d z END HISTOGRAM z count z=200 k DIVIDE k 1000 kk PRINT KK
'500 elemű mintavétel
13
Most az adatok többsége 230 és 270 (230/500=46 % és 270/500=54%) között mozog. Korábban 40-60 % között mozgott. A minta nagyságának növekedésével tehát a becslés hibája csökken! Ez alapozza meg a mintanagyság meghatározásokat. Ha tudjuk, hogy mekkora hibát engedünk meg, és milyen a válaszok megoszlása (például 50 % igen, 50 % nem válasz várható), meghatározható, hogy mekkora mintára van szükség.
Kombinatorika Párok Az a1, …, am és a b1 … bn elemekből mn számú (aj, bk) pár alkotható, amely mindkét csoportból egy-egy elemet tartalmaz. Bizonyítás: m sorból és n oszlopból álló táblázatban, az (aj, bk) párt helyezzük el a j-edik sor és a k-adik oszlop kereszteződésében. Ekkor minden párnak egy és csak egy kocka felel meg. Példa: A1B1 A2B1 A3B1
A1B12 A2B2 A3B2
A1B3 A2B3 A3B3
Általánosítás:
Elem-r-esek Vegyünk n1 darab a1, …, am1 elemet, és n2 darab b1 … bn1 elemet, … végül nr darab b1 … br1 elemet. Ezekből az elemekből n1•n2• … •nr számú rendezett (a elem r-es alkotható, amely minden csoportból egy-egy elemet tartalmaz.
14
Bizonyítás: az állítás indukcióval bizonyítható minden r-re. Alkalmazás: Ha r lépésben választunk (döntünk) és az egyes lépésekben rendre n1, n2, …, nr választásunk lehet, akkor n1n2 …nr különböző döntés lehet. Példa: Tegyük fel, hogy az embereket nemük, családi állapotuk és foglalkozásuk szerint osztályozzák. A különböző lehetőségek az elemek. Ha 5 foglalkozási kategóriát és 4 családi állapotot adunk meg, akkor 2•4•5=40 osztályt kapunk (többdimenziós kontingencia tábla).
r golyó elhelyezése n dobozban
r különböző golyó nr féleképpen helyezhető el n dobozban. Helyezzünk el 2 golyót (A-t és B-t) 4 dobozban. Először elhelyezzük az első golyót. Az összes lehetséges elrendezést (az első lépésre vonatkozó teljes eseményteret) mutatja a következő tábla. Elrendezés 1 2 3 4
1. doboz A
2. doboz
3. doboz
4. doboz
A A A
Most mindegyik elrendezés mellé tegyük be a második golyót. Az összes lehetséges elrendezést (az első és második lépésre vonatkozó teljes eseményteret) mutatja a következő tábla. Elrendezés 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1. doboz AB A A A B
2. doboz
3. doboz
4. doboz
B B B A AB A A
B B
B B A A AB A
B B B
B A A A AB
Bizonyítás: az állítás indukcióval bizonyítható minden n-re és r-re.
15
Mintavétel a sorrend figyelembevételével Tekintsük az a1, a2, … , an elemekből álló halmazt vagy „sokaságot”. A sokaságból vett r számú elem, aj1, aj2, …, ajr bármely sorrendjét vagy elrendezését r elemű mintának nevezzük. Képzeljük el, hogy az elemeket egyenként választjuk ki. Ekkor két eljárás lehetséges. 1. Visszatevéses mintavétel esetén minden egyes elemet a teljes sokaságból vesszük ki, tehát ugyanaz az elem többször is kiválasztható. Visszatevéses mintavétel esetén az n elemű sokaságból nr számú r elemű minta vehető. Első lépésben az n elemű sokaságból n-féleképpen választható ki az első elem. Minden egyes kiválasztott elemhez második lépésben n-féleképpen választható ki a második elem, n elem mellé n-féleképpen rakható második, ez összesen n2. És így tovább. (Lásd párok és elem-resek.) 2. Visszatevés nélküli mintavétel esetén a kiválasztott elemet a sokaságból kivesszük, tehát a mintában egy elem sem ismétlődhet. Visszatevés nélküli mintavételnél az n elemű sokaságból (n)r=n•(n-1) • … •(n-r+1) számú r elemű minta vehető. Első lépésben az n elemű sokaságból n-féleképpen választható ki az első elem. Minden egyes kiválasztott elemhez második lépésben (n-1)-féleképpen választható ki a második elem, n elem mellé (n-1)-féleképpen rakható második, ez összesen n•(n-1). És így tovább. (Lásd párok és elem-r-esek.) Ha r=n, akkor a visszatevés nélküli, n elemű minta a teljes sokaságból áll, és az elemek egy elrendezését (permutációját) jelenti. Ily módon n különböző elem összesen (n)n=n•(n-1) • … •1 különböző módon rakható sorba. Az (n)n helyett az n! (n faktoriális) jelölést szokták használni. n elem közül kiválasztunk r elemet. Az n elemű sokaságból tehát nr számú visszatevéses (ismétléses variáció) és (n)r számú visszatevés nélküli (ismétlés nélküli variáció) r elemű minta vehető, ahol (n)r=n(n-1)…(nr+1). Az utóbbi esetben, ha r=n, (n)n=n(n-1)…2•1 (permutáció). Példa 1. n elemű sokaságból visszatevéssel r elemű véletlen mintát veszünk. Mi a valószínűsége, hogy a mintában egyetlen elem sem fordul elő kétszer, tehát visszatevés nélkül is megkaphatnánk? p= (n)r/nr= n(n-1)…(n-r+1)/ nr. 2. Mi a valószínűsége, hogy 23 véletlenül kiválasztott ember közül legalább kettő egy napon született? (n=365 napból 23 elemű mintát veszünk.) Annak a valószínűsége, hogy a 23 születésnap különböző: p= (n)r/nr= 365n(n-1)…(n-r+1)/ nr. p= 365•364•…•343/36523 ≈ 0,5. Tehát annak a valószínűsége, hogy a 23 születésnap közül legalább egy azonos p≈ 0,5.
16
Részsokaság és partíció Az n elemű sokaság kifejezés n elem összességét jelenti anélkül, hogy utalna az elemek sorrendjére. Így két sokaság csak akkor különböző, ha az egyik tartalmaz olyan elemet, melyet a másik nem. Tekintsük adott n elemű sokaság valamely r részsokaságát. Ha a részsokaság elemeit valahogyan megszámozzuk, akkor r elemű mintát kapunk. Mivel r elemnek r! különböző számozása lehetséges, ezért pontosan r!-szor annyi r-elemű minta van, mint ahány r elemű részsokaság. Tehát (n)r/r! számú r-elemű különböző részsokaság van. Ez akifejezés a binomiális együttható néven ismert, és a következő jelölést szokták használni:
n ( n) r r! r n
Egy n elemű sokaságnak tehát különböző r elemű részsokasága van, ahol r≤n. Más r
n
szóval, n elemből különbözőféleképpen választhatunk ki r elemű részhalmazt. Minden r
ilyen részhalmazt egyértelműen meghatároz a belőle kimaradó n-r elem, melyek n-r elemű sokaságot alkotnak. Következésképpen pontosan annyi r elemű részsokaság van, mint n-r elemű. Ezért, ha 1≤r≤n, akkor
n n r n r n n közvetlen bizonyításhoz vegyük észre, hogy a r n r
n binomiális együttható r
felírható az alábbi alakban is
n n! r r!(n r )! ha
n 1 0 továbbá 0!=1 és (n)0=1.
Binomiális eloszlás Legyen n kísérletből álló kétféle kimenetelű kísérletsorozatban p a jó és q=1-p a rossz eset valószínűsége. Annak a valószínűsége, hogy n kísérletek során k jó és n-k rossz eset következik be:
r pk p k q r k k
17
Példa:
52 = 635.013.559.600 13
Mivel az egy kézben lévő kártyák sorrendje nem fontos, bridzsben különböző leosztás kerülhet egy játékoshoz.
Ha r1, r2, … rk nemnegatív egész számok és r1+r2+…+rk=n, akkor az n elemű sokaság
n!
r1! r2!...rk !
-féleképpen osztható k olyan részre, melyek közül az első r1 számú, a második r2
számú, … elemet tartalmaz (multinomiális együttható).
Hipergeometrikus eloszlás n elemű sokaságban n1 elem piros és n2 elem fekete, n1+n2=n. Válasszunk ki n-ből r elemet véletlenszerűen. Mi a valószínűsége, hogy r elem között pontosan k piros lesz?
n1 n n1 k r k pk n r
n n1 n különböző módon választhatók ki, és bárhogy A piros elemek 1 , míg a feketék r k k is választunk ki k piros elemet, ezekhez bármelyik r fekete elem kiválasztható. Az így definiált valószínűségek alkotják a hipergeometrikus eloszlást. Példa: Állatok számának becslése az újra elfogott állatok számából. Tóból kifognak 1000 halat, és mindegyiket megjelölik piros ponttal, majd visszadobják a tóba. Később újra kifognak 1000 halat, és közülük 100-on találnak piros pontot. Hány hal van a tóban? 1. Heurisztikusan hígítási probléma: 10-szeres hígítás: 10.000 hal van a tóban. 2. Lehet, hogy csak 1900 hal van a tóban. Ennek mennyi a valószínűsége?
p100
1000 900 100 900 1 430 10 1900 1000
Feladat p legnagyobb értékét megtalálni (maximum likelihood becslés). Ez a feladat azonban már statisztikai probléma! - adatokból a valóságra következtetni a valószínűségszámítás eszközeivel.
18
Valószínűségelmélet és matematikai statisztika A valószínűségek ugyanolyan számok, mint a távolságok vagy a tömegek. A valószínűséghez nem feltétlenül kell ismerni a számértékét, ugyanúgy, ahogy a távolság vagy a tömeg fogalmához sem feltétlenül kell konkrét számértéket rendelni. A valószínűség konkrét értékének tapasztalati meghatározása lehetséges a kedvező/összes esetek számának mérésével. Példa: Egy érmét 100-szor feldobunk és megszámoljuk a fejeket. A p valószínűség = a „kedvező” esetek száma/összes eset száma, tehát a fejek száma osztva a dobások számával. Igazából nem valódi érmére, hanem ideális, elképzelt, hibátlan, tökéletes érmére gondolunk, amelynél a fejek dobásának valószínűsége 0,5. A valódi érménél a fejek dobásánál a kedvező/összes eset aránya csak közelítőleg ad 0,5 értéket.
Definíciók és szabályok Adott egy diszkrét (különálló pontokból álló) Ω eseménytér az E1, E2, … Ei, … mintapontokkal. Tételezzük fel, hogy minden Ei ponthoz hozzárendelünk egy számot, amelyet Ei valószínűségének nevezünk és P(Ei)-vel jelölünk. Ezek a számok nemnegatívak és teljesülniük kell rájuk a P(E1)+P(E2)+…+P(Ei)+…=1 összefüggésnek. Definíció: Bármely A esemény P(A) valószínűségén az A-ban lévő mintapontok valószínűségeinek az összegét értjük. P(Ω)=1 0≤P(A)≤1 P(A1⋃A2) ≤ P(A1)+ P(A1) P(A1⋃A2) = P(A1)+ P(A1) — P(A1A2) Ha A1A2 = 0 (A1A2 diszjunkt, egymást kizáró események, akkor: P(A1⋃A2) = P(A1)+ P(A1) Példa: Kétszer feldobunk egy érmét. Eseménytér: FF, FI, IF, II Mindegyik elemi esemény valószínűsége ¼ A1 = először fejet dobunk A2 = másodszor fejet dobunk P(A1⋃A2) = ½ + ½ — ¼ = ¾
(FF, FI, IF)
P(A1⋂A2) = ¼ (FF) Minden véges eseménytér pontjai egyformán valószínűek? Nem. Szabálytalan érme esetén P(A1)≠P(A2) 19
Valószínűségszámításnál a rendszer ismert Példa: Van egy szabályos érme, s kétszer feldobjuk. Kérdés: Mi a valószínűsége, hogy két fejet kapunk? Válasz: Eseménytér=FF, FI, IF, II, tehát a FF valószínűsége ¼.
Matematikai statisztika alkalmazásánál a rendszer nem ismert. Kevés megfigyelésből (minta) a valóságra következtetünk részben valószínűségszámítási módszerekkel
Először rendszerint megfogalmazunk egy feltételezést (hipotézis), és statisztikával ellenőrizzük, hogy igaz-e. Példa: 100-szor feldobunk egy érmét, s 20 esetben kapunk fejet. Kérdés: szabályos-e az érme? Más szavakkal: mi a valószínűsége, hogy 100 feldobásból 20-szor fejet kapok, ha a fej valószínűsége 50 %? Hipotézis: az érme szabályos: p(fej)=p(írás)=0,5 Válasz: dobjunk fel egy szabályos érmét és nézzük meg, hogy ! a fejek száma 20 vagy annál kevesebb vagy ! 20-nál több. Ezt az eljárást ismételjük meg 1000-szer. Számoljuk meg, hányszor következett be ! . Ha ! ritkán következik be (p<0,05), elvetem a hipotézist, ha gyakran (p0,05), elfogadom.
Valószínűségszámítás alapjai A valószínűségszámítás tapasztalati háttere Példa: Golyók elhelyezése két dobozban: 1 AB 1 ABC 2 A B 2 AB C 3 B A 3 AC B 4 AB 4 BC A 5 A BC 6 B AC 7 C AB 8 ABC
4
8
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
ABCD ABC ABD ACD BCD AB AC AD BC BD CD A B C D -
D C B A CD BD BC AD AC AB BCD ACD ABD ABC ABCD
16
Ha a golyók száma r (2, 3, vagy 4) és a dobozok száma n (2), a lehetséges elrendezések száma nr. Az nr összes lehetséges elrendezés a teljes eseménytér.
20
Ha 2 golyót helyezünk el 2 dobozban az, hogy a két dobozban 1-1 golyó van, az eseménytér 2 pontjának felel meg. Így ennek a valószínűsége 2/4 = 0,5. Ha 4 golyót helyezünk el 2 dobozban az az esemény, hogy az egyik dobozban nincs golyó, az eseménytér 2 pontjának felel meg. Így ennek a valószínűsége 2/16 = 0,125. Jelölje Ω a teljes eseményteret. Az eseménytér x pontjainak halmazait, az eseményeket jelölje nagybetű. Azt a tényt, hogy az x pontot az A esemény tartalmazza, x ∈ A jelöli. Ha A = B : a két esemény pontosan ugyanazokból a pontokból áll. Ha A = 0 : A nem tartalmazza az eseménytér egyetlen pontját sem (lehetetlen esemény). A’ = az A esemény ellentettje, komplementere, A tagadása. A ⋂ B vagy AB az A és B metszete (A és B egyaránt bekövetkezik). A ⋃ B vagy A + B az A és B esemény közös része vagy A és B uniója (A és B közül legalább az egyik bekövetkezik). Venn-diagramok
A
B B-AB AB A-AB
A, B, C, … események rendszeréhez definiáljuk a következő két eseményt: ABC az A, B és C események metszete (A, B és C egyaránt bekövetkezik) A⋃B⋃C vagy A+B+C az események uniója (A, B és C közül legalább egy bekövetkezik) A, B és C diszjunkt, ha ABC=0. A ⊂ B, ha A minden pontját tartalmazza B (A-ból következik B) A ⊃ B, ha B minden pontját tartalmazza A (B-ből következik A) B — A esemény mindazon pontok halmaza, amelyek B-ben vannak, de nincsnek A-ban A’ = Ω — A A—A=0 Példa: 1. Ha A és B egymást kizáró események (diszjunkt), akkor A bekövetkezése maga után vonja B be nem következését és megfordítva. Jelekkel: AB = 0, vagy A ⊂ B’ vagy B ⊂ A’. 2. Az A—AB esemény azt jelenti, hogy A bekövetkezik, de A és B mindegyike nem következik be. Így A—AB=AB’.
21
3. Egy házaspárnál jelölje x a férj és y a feleség életkorát. Egy településen a házaspárok életkora egy-egy (x,y) rendezett számpárral írható le (x>0, y>0). Legyen A esemény: férj 40 évnél idősebb (x>40) Legyen B esemény: férj idősebb, mint a feleség (x>y) Mit jelent most A⋂B vagy másképpen AB? AB esemény azt jelenti, hogy a férj egyrészt 40 évnél idősebb, másrészt idősebb a feleségénél (x=40 és az x=y egyenesek által határolt végtelen tartomány) Mit jelent A+B vagy másképpen A⋃B? A+B azt jelenti, hogy vagy a férj idősebb 40 évnél, vagy ha nem, legalábbis idősebb a feleségénél, más szóval a férj életkora meghaladja a 40 év és a felesége életkora közül a kisebbet
Feltételes valószínűség P(A)=NA/N A esemény valószínűsége P(A)=NH/N H esemény valószínűsége P(A|H)=A esemény valószínűsége, feltéve, hogy H esemény is bekövetkezett: P(A|H)=NAH/NH=P(AH)/P(H) P(A|H)=NAH/NH=P(AH)/P(H) mennyiséget A esemény H feltételre vonatkozó feltételes valószínűségének nevezzük. Átrendezve: P(AH)=P(A|H) P(H) Általánosítása három, A, B és C eseményre: Legyen: H=BC Ekkor: P(ABC)=P(A|BC) P(BC). De: P(BC)= P(B|C) P(C). Így: P(ABC)=P(A|BC) P(B|C) P(C). Az általánosítás folytatható négy vagy több eseményre.
(1)
Teljes valószínűség tétele Legyen H1, …, Hn egymást kizáró események olyan rendszere, amelyek közül egy mindig bekövetkezik, tehát H1, …, Hn események egyesítése (uniója) a teljes eseménytér. Ekkor bármely A esemény csak valamely Hi-vel együtt következhet be, vagyis A=AH1⋃AH2⋃…⋃AHn Mivel az AHi események is egymást kizáróak, ezért valószínűségeik összeadódnak. Az (1) formulában H helyett Hi-t írva a teljes valószínűség tételét kapjuk: P(A)=Σ P(A|Hi) P(Hi)
(2)
Példa: Kétgyermekes családot választunk ki véletlenszerűen. Eseménytér: FF, FL, LF, LL (1. idősebb, 2. fiatalabb) Ha az egyik gyermek fiú, mi a valószínűsége, hogy a másik fiú? AH=FF H=FF, FL, LF P(A|H)=P(AH)/P(H) P(A|H)=(FF)/( FF, FL, LF)=1/3 22
Bayes-tétel Legyen H1, …, Hn egymást kizáró események olyan rendszere, amelyek közül egy mindig bekövetkezik, tehát H1, …, Hn események egyesítése (uniója) a teljes eseménytér. P(Hk|A)=P(AHk)/P(A)
(3)
(3)-ba (1)-et és (2)-t behelyettesítve:
P(H k | A)
P(A | H k ) P(H k ) P( A | H i ) P(H i )
(4)
i
Ha a Hk eseményeket okoknak nevezzük, akkor (4) az okok valószínűségének Bayes-tétele. Példa: Emberek véleményét egy személyről sajtóbeszélgetés-sel pozitív irányban szeretnénk befolyásolni. Mi a valószínűsége, hogy a személyről negatív képpel rendelkező emberek rendszeresen nézik a csatornát, és így valószínűleg hallották/látták a beszélgetést? P(nézik a csatornát|negatív kép)=? Ezt nem tudjuk, de közvéleménykutatás alapján azt igen, hogy P(negatív kép|nézik a csatornát)=0,3 P(negatív kép|nem nézik a csatornát)=0,2 P(nézik a csatornát)=0,4 P(nem nézik a csatornát)=0,6 P(nézik|negatív)= P(negatív|nézik)P(nézik)/ [P(negatív|nézik)P(nézik)]+ [P(negatív|nem nézik)P(nem nézik)]= 0,3•0,4/(0,3•0,4+0,2•0,6)=0,12/0,24=0,5
Sztochasztikus vagy statisztikai függetlenség P(A|H)=P(A) általában nem teljesül Láttuk, hogy: P(AH)=P(A|H) P(H) P(A|H)=P(A) esetén, behelyettesítve: P(AH)=P(A) P(H) Definíció: Az A és B eseményt (sztochasztikusan) függetlennek nevezzük, ha teljesül a fenti P(AH)=P(A) P(H) összefüggés. Példa: Kosárlabda dobások - A találati valószínűség=30 %, B mellédobás valószínűsége 70 %
23
P(AA) annak a valószínűsége, hogy kétszer egymás után kosárba talál P(AB) annak a valószínűsége, hogy először kosárba talál, utána mellé dob P(BA) annak a valószínűsége, hogy először mellé dob, utána kosárba talál P(BB) annak a valószínűsége, hogy kétszer egymás után kosárba talál Ha A és B esemény egymástól független, akkor P(A)=30 %
P(AA)=a 30 % 30 %-a= 9% P(AB)=a 30 % 70 %-a=21% P(BA)=a 70 % 30 %-a=21% P(BB)=a 70 % 70 %-a=49%
P(B)=70 %
Differenciálás és integrálás A differenciálás, más néven deriválás a függvények lefutásának vizsgálatára, a maximumok és minimumok egyszerű meghatározására alkalmas. Az integrálás a görbék, síkok alatti terület kiszámítására alkalmas. A differenciálás és integrálás között szoros oda-vissza kapcsolat van, a kettő egymás ellentettje, inverze. A differenciálás és integrálás a statisztikában hagyományosan használt eszközök, de modern világunkban az általános műveltség részének is tekinthető viszonylag egyszerű technika.
Differenciálás A differenciálás során a függvény által meghatározott görbe érintőjének meredekségét határozzuk meg adott pontban. Tekintettel arra, hogy a meredekség adott pontban lehet negatív (balra és fölfelé néző egyenes), pozitív (jobbra és fölfelé néző egyenes) vagy nulla (vízszintes egyenes), az utóbbi esetben az érintő ebben a pontban mindjárt a maximum vagy minimum helyét is megadja. Tekintettel arra, hogy a görbék érintője megmutatja adott pontban a görbe növekedésének vagy csökkenésének mértékét, a deriválás a mozgás, változás leírásának alapvető eszköze. A differenciálás definíciószerűen a következő. Legyen f=y(x) függvény, tehát olyan y, amely x-től függ. Ekkor
y ' y ' ( x)
dy y lim dx x 0 x
Példa. Mennyi az y=x2 függvény deriváltja?
y'
y dy (x x)2 x 2 lim lim x 0 x x 0 dx x
Példa. Mennyi az y=x3 függvény deriváltja?
x 2 2 xx x 2 x 2 2 xx x 2 lim y lim x 0 x 0 x x '
24
y ' lim 2 x x 2 x x 0
y ' lim 3 x 2 3 x x x 2 3 x 2 x 0
x 3 3 x 2 x 3 x x 2 x 3 x 3 y lim x 0 x '
Példa. Mennyi az y=1/x=x-1 függvény deriváltja?
1 1 x lim x ( x x ) y ' lim x x x 0 x 0 x x(x x) x 1 x(x x) y ' lim 2 x 0 x x Néhány hasznos megfigyelés Konstans differenciálhányadosa:
y ' lim
x 0
0 c cc 0 x x x
(c=konstans) Állandóval szorzott függvény differenciálhányadosa: Példa. y=3x2
3( x x) 2 3 x 2 3( x 2 2 xx x 2 ) 3 x 2 y lim x 0 x x '
25
Tehát:
6 x x 3 x 2 y lim lim 6 x 3x 6 x 3 * 2 * x x 0 x 0 x '
d3y dy 3 , dx dx
dcy dy c dx dx Állandóval szorzott függvény deriváltja = derivált szorozva az állandóval (c=konstans) Két függvény összegének deriváltja = a deriváltak összegével ha z(t)=y(t)+x(t), akkor
dz dy dx dt dt dt Bizonyítás:
lim
x 0
z y y y x x x lim lim x 0 x 0 t t t
Általánosan: ha z(t)=ax(t)+by(t)+cu(t), akkor
dz dx dy du a b c dt dt dt dt Geometriailag:
y ' y ' ( x)
y y y dy lim lim 1 0 tg( ) dx x0 x x0 x1 x0 26
Ez határértékben az x0 pontban az érintő iránytangense, ha x1 egyre jobban megközelíti x0-t.
Függvények vizsgálata a differencálhányados segítségével Ha a derivált értéke adott x értéknél pozitív, akkor a függvény abban a pontban (a pont szűk környezetében) nyilvánvalóan növekszik (tangens alfa pozitív!). Ha a derivált értéke adott x értéknél negatív, akkor ott a függvény csökken. Ha a derivált értéke nulla, akkor ott a függvénynek vagy maximuma, vagy minimuma (esetleg inflexiós pontja) van. Honnan lehet tudni, hogy ha a derivált értéke nulla, akkor ott a függvénynek vagy maximuma, vagy minimuma van?
Tekintsük például az y = (3x3-x2-x) függvényt. Lokális maximum: ahol az első derivált (9x2 - 2x -1) = 0 és a második derivált (18x - 2) negatív (y1-y0 lefelé lejtő görbe). Lokális minimum: ahol az első derivált = 0 és a második derivált pozitív (y1-y0 felfelé emelkedő görbe). A második derivált jelölése:
dy d2y '' dx y dx dx 2 d
27
Integrálás A (határozott) integrál az a és b pont között a görbe alatti terület.
Közelítőleg Pontosan
T≈Σyi-1 Δxi T =∫ab y(x)dx
Az integrál és a derivált kapcsolatát az ún. Newton-Leibnitz tétel mutatja meg. Eszerint a határozott integrálnak a felső határ szerinti diffferenciálhányadosa egyenlő az integrandus függvénynek a felső határnál vett értékével.
d db
b
y ( x ) dx y ( b )
a
A (határozatlan) integrál könnyen kiszámítható a deriválási szabályok ismerete alapján. Példa. Mennyi az y=3x2+2 alakú függvény alatti terület az x=1 és x=2 pont között? T=∫12(3x2+2)dx=[x3+2x]12=8+4-1-2=9 Statisztikai alkalmazások A differenciálhányados alkalmazása a statisztikában igen elterjedt például az ún. maximum likelihood becsléseknél, melynek lényege, hogy azt az értéket fogadjuk el jó becslésnek, amelynek valószínűség az adott eloszlás vagy adott megfigyelések esetén a legnagyobb.
28
Szintén differenciálni kell a legkisebb négyzetek módszerének alkalmazásához a regressziószámításban. Az integrálás alapvető a sűrűségfüggvénynél a görbe alatti terület kiszámításához, amely szintén az eloszlás valószínűségét adja meg különböző értékeknél.
Leíró statisztika A leíró statisztika célja, hogy az adatokat, az adatok eloszlását (l. még: valószínűség, sűrűségfüggvény, eloszlásfüggvény) tömören néhány összefoglaló jellegű számmal jellemezze. E jellegzetes mutatószámokat statisztikáknak is nevezik (például átlag, szórás, medián stb.). Leíró statisztika számtani átlag
1 n x xi n i 1 medián Páros és páratlan számú adat esetében a medián kissé különbözik egymástól: Páratlan számú adatnál:
medián
páratlan
n 1 2
párosnál a két középső megfigyelés
n n mediánpáros és 1 dik 2 2 értékének az átlaga Módusz: leggyakoribb érték
Minta szórás (Variancia) 2
n
s 2
(x i 1
i
x )
n 1 29
--------------------------------------------------------------------------Minta standard deviáció (Std. dev.) 2
n
s
(x i 1
x )
i
n 1
--------------------------------------------------------------------------Variációs koefficiens
s CV 100% * x
--------------------------------------------------------------------------Pearson-féle korrelációs koefficiens n
r
(x i 1
n
(x i 1
i
i
x )( y i y )
x)
2
n
(y i 1
i
y)2
Exploratív adatelemzés alapvető módszerei Az exploratív adatelemzés célja, hogy könnyen áttekinthető formában egyszerre nagyon sok információt lehessen megragadni a segítségével. Egyik technikája a box-whiskers plot (doboz és bajuszok ábra). A doboz közepén futó vonal a medián, a doboz alsó és felső széle az eloszlás 25 %-os és 75 %-os percentilise.
30
Boxplot Mennyit költöttek a háztartásban külföldi üdülésre, kirándulásra 1997-ben (Ft) 1000000
800000
223 228
600000 177 227 176 218
400000
200000
0
-200000 N =
69
mennyit költöttek ht
Boxplot vagy box-whiskers plot magyarázata A boxplot funkciója, hogy az adatok eloszlását egyszerű, lényegretörő ábra segítségével jellemezze. A középső vonal a Medián A doboz fölső és alsó széle az eloszlás mediántól számított fölső és alsó egynegyedét jelzi (fölső és alsó egynegyed valószínűség, fölső és alsó 25 százalékos percentilisek, fölső és alsó hinge /ejtsd: hindzs, magyarul "zsanér"/) A 25 %-os percentilis az az érték, amelyet a sorba rendezett adatok 25 százalékánál lehet leolvasni. Például 1000 fős minta esetében sorba rendezzük a jövedelmeket és leolvassuk a 250. embernél a jövedelem értékét, ez a 25 %-os percentilis. A 750. embernél leolvasott érték a 75 %-os percentilis. Az 500. embernél leolvasott érték a medián. A doboz tartalmazza az eloszlás medián köré tömörülő felét. A két függőleges vonal a két "bajusz" (whiskers) A legalsó kis vízszintes vonal mutatja a minimum értéket vagy a felső hinge - 1,5 x (felső hinge - alsó hinge) távolságot A legfelső kis vízszintes vonal mutatja a maximum értéket vagy a felső hinge + 1,5 x (felső hinge - alsó hinge) távolságot
31
A legalsó kis vízszintes vonal alatt a többi adatot kör jelöli egészen a felső hinge - 3 x (felső hinge - alsó hinge) távolságig, utána csillag van A legfelső kis vízszintes vonal alatt a többi adatot kör jelöli egészen a felső hinge + 3 x (felső hinge - alsó hinge) távolságig, utána csillag van Néha x jelöli a dobozon belül az átlag helyét. Másik technikája a stem and leaf plot (tő és levelek ábra). Bal oldalon az értékek gyakorisága szerepel. Középen a fő értékek (itt: 0: tízezresek, 1: egyszázezresek, 2: kétszázezresek, 3: háromszázezresek) Jobb oldalon a tízezresek esetén az ezresek, százezresek esetén a tízezresek kkövetkeznek. Jobb oldalon minden számjegy egy ember adatát ábrázolja.
Mennyit költöttek ht-ban külf. üdül-kiránd-ra 1997-ben (Ft) Stem-and-Leaf Plot (Tő és levelek) Gyakoriság Stem &
Leaf
7,00 0 . 0001111 10,00 0 . 2222223333 8,00 0 . 44555555 3,00 0 . 667 6,00 0 . 888889 7,00 1 . 0000000 3,00 1 . 233 5,00 1 . 55555 ,00 1 . 3,00 1 . 889 1,00 2 . 0 ,00 2 . 3,00 2 . 555 ,00 2 . 1,00 2 . 8 6,00 3 . 000000 6,00 Extrem (>=500000) Stem width: 100000, Each leaf:
1 case(s)
32
Aszimptotikus és komputer-intenzív módszerek Tekintsük azt az esetet, hogy van 10 ember, akik közül 5-5 személyt véletlenszerűen A és B csoportba sorolnak (ún. véletlen besorolás) üdítőital kipróbálása és értékelése céljából. Az A csoportban az A italt, a B csoportban a B italt kóstoltatják meg az emberekkel. Mindkét csoportban 1-től 5-ig osztályozzák az ital ízét, ahol 1=egyáltalán nem ízlik, 2=nem ízlik, 3=isis, 4=ízlik és 5=nagyon ízlik. Igaz, hogy ez egyszerű ordinális skála, de felfogható ez olyannak, mintha "rendes" mért adat volna, mint a súly vagy az életkor (intervallum vagy arányskála). Az A csoportban az ízlés pontszáma átlagosan 2, a B csoportban 4. Kérdés, hogy a pontszám átlagokban mutatkozó 4-2=2 különbség tulajdonítható-e a véletlennek (amely az 5-5 személy véletlenszerű A és B csoportba sorolásából adódik), vagy pedig azon túlmutató "hatásról" van szó. Aszimptotikus módszer Az aszimptotikus módszernél feltételezik, hogy végtelenhez közeli nagyságú minta származik végtelen nagyságú alapsokaságból. Aszimptotikus módszernél képezhető az átlagok közötti különbség, osztva a standard deviációval (vagy annak valamilyen függvényével), hogy az adatok a standard deviáció (szóródás) mértékegységében legyenek kifejezve, majd abból a feltételezésből kiindulva, hogy az így képzett átlagok közötti különbség ismert eloszlást követ, táblázatból ki lehet keresni annak az eseménynek a valószínűségét, hogy az átlagok közötti különbség a megfigyelt érték vagy annál nagyobb abban az esetben, ha csupán a véletlen játszik szerepet (kétmintás t-próba). Problémát ebben az esetben az alábbiak okozhatnak: Túlságosan koncentrálunk az elméletre (elméleti eloszlás kiszámításához használt előfeltevésekre) az átlagok közötti különbség nem a feltételezett eloszlást követi (az eljáráshoz legalább 20, de inkább 30 ember adata volna szükséges) az ismert eloszlás kiszámítása bonyolult a táblázat eredete a matematikai-statisztikában járatlan számára homályos lehet Előnye az eljárásnak Elméletileg megalapozott (lehet) Kevés adat esetén robusztus (viszonylag pontosan működik) Komputer-intenzív módszer permutációs teszttel Permutációs teszt esetén az A csoport adatait fehér golyó jelöli, mindegyik golyóra rá van írva a megfelelő ízértékelési pontszám 1-től 5-ig, a B csoport adatait pedig piros golyó jelöli, s szintén mindegyik golyóra rá van írva a megfelelő ízértékelési pontszám 1-től 5-ig.. Feltételezzük, hogy a pontszám átlagokban tapasztalt különbség csak a véletlen műve (ún. null-hipotézis). Képezünk egy ún. teszt-statisztikát, például a két csoport pontszám átlagának a különbségét abszolút értékben: |xA-xB|. A feltételezés fizikai megvalósításához az A csoport ízpontszám megfigyeléseit egyesével 5 db fehér golyóra ráírjuk, a B csoport ízpontszám értékeit pedig egyesével 5 db piros golyóra írjuk. 33
Összesen 1000 kísérletet végzünk el. Az első kísérletben "a különbség csak a véletlennek tulajdonítható" című null-hipotézisnek megfelelően fizikailag összekeverjük a kétszer 5 db golyót, majd véletlenszerűen két csoportba osztjuk őket. Az első csoportban is lesz fehér és piros golyó, és a második csoportban is lesz mindkét fajtából. Mindegyik golyóra rá van írva a megfigyelés értéke (ízpontszám). Az első kísérlet végén kiszámítjuk a keletkezett új első és a második csoportban is a pontszám átlagokat, majd e pontszám átlagok különbségét képezzük, végül e különbség abszolút értékét képezzük. Az eredményt felírjuk egy papírra (vagy még inkább számítógépes program segítségével memóriában vagy mágneslemezen tároljuk). A második kísérletben ismét összekeverjük a kétszer 5 db golyót, majd véletlenszerűen két csoportba osztjuk őket. Újra kiszámítjuk az első és a második csoportban is a pontszám átlagokat, majd e pontszám átlagok különbésgét képezzük, végül e különbség abszolút értékét képezzük. Az eredményt ismét felírjuk egy papírra. Az ezredik kísérletben még utoljára megismételjük ugyanezt a műveletet. Most a végén a vízszintes tengelyen ábrázoljuk az ezer kísérlet során kapott átlagok közötti különbségek abszolút értékét, a függőleges tengelyen pedig azt, hogy ezek az értékek az ezer kísérlet során hányszor, illetve az esetek hány százalékában fordultak elő. Az eredmény haranghoz némileg hasonló görbe lesz. Most megkeressük az emberek megkérdezése alapján eredetileg ténylegesen megfigyelt különbséget. Ha az embereken eredetileg megfigyelt átlagok közötti különbség vagy annál nagyobb érték a véletlenszerűen összekevert adatok alapján (nullhipotézis) csak az esetek kevesebb, mint 5 százalékában fordul elő, akkor elvetjük azt az elképzelést (nullhipotézist), hogy a ténylegesen eredetileg kapott, életben megfigyelt adatok származhattak olyan eloszlásból, amely az emberek adatainak véletlen összekeveréséből származik, ellenkező elsetben viszont elfogadjuk. Ha a ténylegesen embereken megfigyelt átlagok közötti különbség vagy annál nagyobb érték a véletlenszerűen összekevert adatok alapján (nullhipotézis) csak az esetek kevesebb, mint 5 százalékában (tehát ritkán) fordul elő, akkor azt mondjuk, hogy az eredmény 5 százalékos szinten szignifikáns - ilyenkor nem a véletlen besorolásnak, tehát nem az annak megfelelő véletlen hatásnak - tulajdonítható a kapott különbség, hanem sokkal inkább talán az A és B üdítőitalok eredendő különbözőségének. Problémát ebben az esetben az alábbiak okozhatnak: Nincs mindig mély elméleti háttere Túlságosan koncentrálunk a megfigyelt adatokra Nincs mindig kész szoftver a sokféle statisztikai probléma komputer-intenzív módszerekkel való megválaszolására Előnye az eljárásnak Kevés adat esetén is működik Ferde eloszlású adatok estén is működik (ha sokan adtak magas pontszámot és kevesen alacsonyat) Nem igényel a különbségstatisztika eloszlására vonatkozó elméleti előfeltevést Nem matematikusok is tisztán láthatják az eljárás logikáját
34
Az amerikai bíróságok kétség esetén az ilyen módszerekre alapozott következtetést fogadják el bizonyítékként. Megjegyzés Az aszimptotikus és komputer-intenzív módszerekkel kapott statisztikai következtetések nagy minta elemszám, illetve viszonylag szimmetrikus eloszlás (nagyjából azonos számú ember mondta, hogy jó ízű, illetve nem jó ízű a kipróbált ital) esetén lényegében azonosak.
Többváltozós statisztikai módszerek Klaszter elemzés Bevezetés Igaz, hogy varietas delectat (a változatosság gyönyörködtet), de az is igaz, hogy similis simile gaudet (hasonló hasonlónak örül, hasonló hasonlót vonz). A klaszter elemzés - klaszter = csoport (angolul: cluster) - célja: előre nem ismert csoportok képzése, keresése. A keresés eredménye: homogén csoportok létrehozása A társadalomtudományokban az egyének, intézmények vagy országok hasonlósága általában nem egyetlen, hanem számos ismérv /változó, valószínűségi változó/ alapján állapítható meg pl. országok esetén hasonló nagyságú az egy főre jutó GDP, a gazdaság növekedése, a munkanélküliségi ráta, a születéskor várható átlagos élettartam, az iskolázottság, stb. Lehetséges, hogy két országban hasonló az főre jutó GDP, a születéskor várható átlagos élettartam, és az iskolázottság, de eltérő a gazdaság növekedési üteme és a munkanélküliségi ráta. Az országokat úgy szeretnénk csoportosítani, hogy valamennyi ismérv szerint a hasonlók azonos, a különbözők pedig eltérő csoportokba kerüljenek. Egyszerre több, akár száz változót is mérhetünk. Emiatt többváltozós statisztikai módszerre van szükség, amely egyszerre kezeli az összes változót. Általánosságban a példában szereplő egyéneket, intézményeket, országokat objektumoknak, az őket jellemző ismérveket pedig attribútumoknak (tulajdonságoknak) nevezik. A klaszter elemzés típusai A klaszter elemzés lehet agglomeratív ("összecsomósító) és divisive (ejtsd: divájszív; "szétdaraboló"). Az agglomerativ klaszter elemzés esetében először minden objektum önálló klaszterben van, s ezeket egyesítik egyre kisebb számú csoportban. A divisive klaszter elemzés esetében először minden objektum egyetlen klaszterben van, s ezeket bontják szét fokozatosan több klaszterre. A klaszter elemzés lehet hierarchikus és nem-hierarchikus.
35
A hierarchikus klaszter elemzés esetén az egyes klaszterek benne lehetnek nagyobb klaszterekben. A nem-hierarchikus klaszter elemés esetén az egyes klaszterek önállóak. Átfedő klaszterek esetén egyes objektumok egyszerre több klaszterbe is tartozhatnak. Fuzzy (ejtsd: fázzi) klaszterek esetén az egyes klaszterekbe tartozást valószínűségek határozzák meg. Ha a valószínűség mindenütt 1, akkor ez a hagyományos klasztereknek felel meg. A fuzzy klaszterek tehát a hagyományos klaszterek általánosításai. Igen elterjedt elemző módszerek az agglomeratív hierarchikus klaszter elemzés, amely valamennyi mérési szintű változónál használható és ún. dendrogramokat hoz létre, és a nem-hierarchikus K-means klaszter elemzés, amely intervallum/arány mérési szintű változóknál használható és elkülönülő csoportokat ("piaci szegmenseket") hozhat létre. Agglomeratív hierarchikus klaszter elemzés Agglomeratív hierarchikus klaszter elemzés esetén először minden objektum önálló klaszterben van, s ezeket egyesítik egyre kisebb számú csoportban, s a végeredményként kapott klaszterek benne lehetnek nagyobb klaszterekben. Az agglomeratív hierarchikus klaszter elemzés előnye, hogy valamennyi mérési szintű attributum változó (nominális, ordinális, intervallum/arány) kezelhető a segítségével. Az eredmény többnyire grafikusan ábrázolható ún. dendrogram (phenogram) formájában. Példa Az eljárás 6 lépésből áll. 1. lépés Adatmátrix létrehozása
Attribut.
Objektumok 1 2 10 20 5 20
1 2
3 30 10
4 30 15
5 5 10
2. lépés Adatok standardizálása, pl.
( xi x ) / s.d . ahol
1 x n
n
x i 1
i
36
2
n
(x i 1
s.d .
i
x )
n 1
Standardizált adatmátrix létrehozása 1 Attributum
1 2
-0,79 -1,23
Objektumok 2 3 0,90 0,96 1,40 -0,35
4
5 0,96 0,53
-1,22 -0,35
A standardizálás során a változókat dimenzió nélkülivé alakítják. Az egyszerűség kedvéért most a 2. lépést kihagyjuk a további számításokból és az adatmátrixból dolgozunk. 3. lépés Hasonlósági mátrix kiszámítása hasonlósági koefficiensekkel, vagy különbözőségi koefficiensekkel A kettő között az eltérés a mérés "irányában" van: Minél nagyobb a hasonlósági koefficiens értéke, annál hasonlóbb két objektum egymáshoz. Minél kisebb a különbözőségi koefficiens értéke, annál hasonlóbb két objektum egymáshoz. Például a Pithagorasz-tételből ismert euclideszi távolság c=√(a2+b2) különbözőségi koefficiens, amely az objektumok egymástól való távolságát méri. Öt változó esetén g=√(a2+b2+c2+d2+e2) az euclideszi távolság általánosítása. Az euclideszi távolság alapján kiszámított hasonlósági mátrix a következő. A mátrix mutatja minden objektum minden objektumtól mért távolságát. 1 2. tagja
1 2 3 4 5
18,0 20,6 22,4 7,07
az objektum-pár 1. tagja 2 3 4 14,1 11,2 5,0 18,0 25,0 25,5
5 -
4. lépés A klaszterezés végrehajtása. A hasonlósági mátrixot fa-diagrammá (dendrogram, phenogram) alakítják át.
37
Három fő módszere: UPGMA - unweighted pair-group method using arithmetic averages (összevonás középső értékkel) SLINK - single-linkage (összevonás legközelebbi értékkel) CLINK - complete-linkage (összevonás legtávolabbi értékkel) A fenti példával SPSS program futtatásának eredménye a következő: Cluster Proximity Matrix
Case 1 2 3 4 5
Euclidean Distance 2 3 4 18,028 20,616 22,361 14,142 11,180 14,142 5,000 11,180 5,000 18,028 25,000 25,495
1 18,028 20,616 22,361 7,071
5 7,071 18,028 25,000 25,495
This is a dissimilarity matrix
Average Linkage (Between Groups) -- UPGMA módszer Agglomeration Schedule
Stage 1 2 3 4
Cluster Combined Cluster 1 Cluster 2 3 4 1 5 2 3 1 2
Coefficien ts 5,000 7,071 12,661 21,588
Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 0 0 1 2 3
Next Stage 3 4 4 0
Vertical Icicle
X X X X
X X X X
X X X X
X X
X X X X
X
X X X X
1
5
2
3
Number of clusters 1 2 3 4
4
Case X X X
X X X X
38
Dendrogram * H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S *
Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E Label Num
0 5 10 15 20 25 +---------+---------+---------+---------+---------+
3 4 2 1 5
5. lépés Az adat- és hasonlósági mátrix átrendezése. Átrendezett adatmátrix
Attribut.
3 30 10
1 2
4 30 15
Objektumok 2 20 20
1 10 5
5 5 10
1 7,07
5 -
Átrendezett hasonlósági mátrix
2. tagja
az objektum-pár 1. tagja 4 2 11,2 22,4 18,0 25,5 18,0
3 5,0 14,1 20,6 25,0
3 4 2 1 5
6. lépés A kophenetikus korrelációs koefficiens kiszámítása Pearson-féle (produkt-moment) korreláció segítségével. Ez a hagyományos korrelációszámítást jelenti (képletét lásd lejjebb). Hasonlósági mátrix 1 2. tagja
1 2 3 4 5
2 18,0 20,6 22,4 7,07
az objektum-pár 1. tagja 3 4 14,1 11,2 5,0 18,0 25,0 25,5
5 -
39
A dendrogramból származtatott kophenetikus mátrix 1 2. tagja
1 2 3 4 5
21,6 21,6 21,6 7,07
az objektum-pár 1. tagja 2 3 4 12,7 12,7 5,0 21,6 21,6 21,6
5 -
A kophenetikus korrelációs koefficiens kiszámításának a lényege az, hogy ha az objektum pár 1. és 2. tagjának adatait úgy, mint az a mellékelt táblázatban látható, akkor
ha x növekedésével y is növekszik, a korrelációs együttható 0 és 1 között van, ha x növekedésével y csökken, akkor a korrelációs együttható 0 és -1 között van, ha pedig x növekedésével y nem változik, a korrelációs együttható 0 körüli érték.
Táblázat kophenetikus együttható kiszámításához Cella (2,1) (3,1) (4,1) (5,1) (3,2) (4,2) (5,2) (4,3) (5,3) (5,4)
X 18,0 20,6 22,4 7,07 14,1 11,2 18,0 5,0 25,0 25,5
Y 21,6 21,6 21,6 7,07 12,7 12,7 21,6 5,0 21,6 21,6
Kophenetikus korrelációs koefficiens (Pearson-féle) n
r
(x i 1
n
(x i 1
i
i
x )( y i y )
x)
2
n
(y i 1
i
y )2
A kophenetikus korrelációs együttható kiszámítása a hasonlósági mátrix és a dendrogram összehasonlításához szükséges, annak megállapításához, hogy e kettő mennyire van közel egymáshoz, tehát hogy a fa diagram jól írja-e le az adatokat.
40
Tekintettel arra, hogy ez az összehasonlítás közvetlenül nem lehetséges, az adatmátrixot a dendrogramból származtatott kophenetikus mátrixszal hasonlítják össze. A dendrogram jónak mondható, ha a kophenetikus együttható értéke 0,8-nál nagyobb. Standardizálás A klaszter-elemzéshez a standardizálás tehát a változókat dimenzió nélkülivé alakítja. 1: Q és R-elemzésnél is 1. Z-score
Zij (xi x ) / s.d. átlag : x
1 n
n
x i 1
i
2
n
std.dev.: sd.
(x x ) i
i1
n1
2-3: Q-elemzésnél (R=row, sor) 2.
Zij xij / RMAXj ) 3.
Z ij ( xij RMIN j ) / ( RMAX
j
RMIN j )
4-5: R-elemzésnél (C=column, oszlop) 4.
Z ij x ij / CMAX
j
5.
Zij ( xij CMINj ) / (CMAXj CMINj )
41
Q-elemzésről szoktak beszélni az eddig leírt módszernél, ha embereket, intézményeket, országokat (objektumokat) klasztereznek. R-elemzésről szoktak beszélni, ha a tulajdonságokat, tehát magukat a változókat klaszterezik. Ez utóbbi esetben az adatmárrix traszponálására van szükség (sorok és oszlopok felcserélése), majd a számításokat a korábbi módon végrehajtani. Hasonlósági mátrix kiszámítása Lehetséges hasonlósági koefficiensekkel, vagy különbözőségi koefficiensekkel Az eltérés a mérés "irányában" van: Minél nagyobb a hasonlósági koefficiens értéke, annál hasonlóbb két objektum egymáshoz és minél kisebb a különbözőségi koefficiens értéke, annál hasonlóbb két objektum egymáshoz. Folytonos, illetve nominális változók esetén a mérési szinteknek megfelelően különböző koefficienseket érdemes használni. Folytonos változók esetén használt különbözőségi koefficiensek: euklideszi távolság:
e
jk
n
(X
i 1
ij
X
ik
)2
átlagos euklideszi távolság:
d jk
n
(X i 1
ij
X ik ) 2 / n
djk értéke 0 és +∞ között változhat. alak-különbözőség (Penrose, 1953)
42
n
n / (n 1) (d 2 jk q 2 jk )2
z jk
i 1
ahol
q
2
jk
1 2 n
n
(X
i1
ij
n
i 1
X
ik
zjk értéke 0 és +∞ között változhat. Egyéb folytonos változók esetén használt különbözőségi koefficiensek: cosine koefficiens Canberra metric koefficiens Bray-Curtis koefficiens Folytonos változók esetén használt hasonlósági koefficiensek: Pearson-féle korrelációs koefficiens n
r
i 1
n
i 1
( x i x )( y i y )
( xi x )
2
n
i 1
( yi y )2
Koefficiensek "érzékenysége" a méretváltozásokra A koefficiensek érzékenysége az adatprofilok méretváltozására igen fontos tulajdonság, hiszen ennek révén az eredmények különböző-képpen interpretálhatók. Mit jelent az adatprofilok additív, proprocionális és tükörkép transzlációja? Tekintsük a következő ábrát!
43
Adatprofilok transzlációja Proporcionális
Additív Alapadat
Tükörkép
Az ábrán a vízzintes tengely az időt, a függőleges tengely a mért értéket jelenti. Az additív transzláció konstanssal való eltolást, a proporcionális transzláció az eredeti adatok valamilyen értékkel való megszorzását, a tükörkép pedig tükrözését jelenti. A klaszter-elemzés során tudnunk kell, hogy számunkra minek van jelentősége. Például az a kívánalom, hogy hasonló adatmintázatok kerüljenek egy csoportba olyan koefficiens kiválasztását eredményezheti, amely nem érzékeny az adatok additív transzlációjára (adatprofilok additív eltolására). Az alábbi tábla összefoglalja a folytonos változóknál alkalmazott koefficiensek érzékenységét az additív, proporcionális és tükörkép transzlációkra. Tábla. Hasonlósági és különbözőségi koefficiensek "érzékenysége" additív és proporcionális eltolással szemben jele ejk djk ajk bjk zjk cjk rjk
koefficiens neve HASONLÓSÁGI euklideszi átlagos euklideszi Canberra metric Bray-Curtis shape difference KÜLÖNBÖZŐSÉGI cosine korrelációs
terjedelem
figyelmen kívül hagyott transzláció additív proporcionális
0≤ejk≤∞ 0≤djk≤∞ 0≤ajk≤∞ 0≤bjk≤∞ 0≤zjk≤∞
nem nem nem nem igen
nem nem nem nem nem
0≤cjk≤∞ 0≤rjk≤∞
nem igen
igen igen
44
Diszkrét változók esetén használt különbözőségi koefficiensek: Jaccard koefficiens
C jk a / (a b c) 0 ≤ Cjk ≤ 1 Simple matching koefficiens
C jk a d / (a b c d ) 0 ≤ Cjk ≤ 1 Yule koefficiens
C jk ad bd / (ad bc) −1 ≤ Cjk ≤ +1 További koefficiensek: Hamman koefficiens Sorenson koefficiens Rogers és Tanimoto koefficiens Sokal és Sneath koefficiens Russel és Rao koefficiens Baroni-Urbani és Buser koefficiens Sokal-féle bináris távolság koefficiens Ochiai koefficiens Phi koefficiens
45
Példa Nominális változójú objektumok (személyek) klaszterezésére Jaccard koefficienssel Két személy (objektum j és k) nyolc kérdésre (attributum vagy tulajdonság 1-8) igennel (1) vagy nemmel (0) válaszol. A két személy között a Jaccard hasonlósági koefficiens értéke 2/5=0,4.
Objektum Tulajdonság 1 2 3 4 5 6 7 8
j-edik objektum
1 0
j 1 0 0 1 0 1 0 0
k 0 1 0 1 0 1 1 0 k-adik objektum 1 0 a=2 b=1 c=2 d=3
Cjk = a / (a + b + c) = 2 / (2 + 1 + 2) = 2 / 5 = 0,4 Hasonlóképpen állapítható meg n személy (objektum) között az összesen n(n-1) távolság (minden személy minden személytől való távolsága). Az összes távolság ismeretében a legközelebbi objektumok (személyek) közös klaszterekbe csoportosíthatók.
Főkomponens elemzés A főkomponens elemzés egyike a legrégebbi és legegyszerűbb többváltozós módszereknek. Eredetileg Pearson írta le 1901-ben, de akkor még csak 2-3 változóra javasolta. A több változóra alkalmazott egyik számítási módszert csak 1933-ban írta le Hotelling. Jelenleg többféle számítás létezik, de mindegyik alapgondolata a következő. A módszer célja az, hogy több változót helyettesítsünk egy-két képzett fő változóval. Például az ún. intelligencia méréséhez nagyon sok kérdést tettek föl, amely sok változónak felel meg (az egyes kérdésekre adott válaszok egy-egy valószínűségi változónak, amelyek a véletlentől függnek).
46
A sok kérdésből sikerült kiemelni néhány fontos új szempontot, amelyek a többi kérdés alapján kiemelkednek. Az új szempontok a többi kérdés összegzéséből keletkeznek. Ha az eredeti megfigyelt változókat X1, X2, …, Xp jelöli (pl. X1 az 1. kérdésre adott pontszám, X2 a 2. kérdésre adott pontszám, és Xp a p. kérdésre adott pontszám), akkor keressük azokat a Z1, Z2, …, Zp új változókat, amelyek az X1, X2, …, Xp változók lineáris kombinációi úgy, hogy Z1, Z2, …, Zp nem korreláltak. A korrelálatlanság azért hasznos tulajdonság, mert ezáltal a Z1, Z2, …, Zp új változók mintegy az adatok 1, 2, …, p dimenzióját jelölik. Ha van három hagyományos, egymásra merőleges x, y és z tengelyünk, és az adatok éppen e tengelyek mentén helyezkednek el, akkor ezek az adatok sincsenek egymással korrelációban, hiszen ha x értéke például 1-ről 2-re növekszik, ez nem befolyásolja azt, hogy az y tengely mentén fekvő adatnak mennyi az értéke. Ráadásul a Zi változókat úgy rendezik sorba, hogy az általuk megmagyarázott szórás hányada monoton csökken. Más szavakkal ha var jelöli az adott Zi változó által megmagyarázott szórás hányadot, akkor var(Z1)≥ var(Z2)≥……≥var(Zp). A Zi új változókat főkomponenseknek nevezik. Az, hogy a Zi főkomponensek az Xi változók lineáris kombinációi, az alábbi módon írható le: Zi=ai1Xi+ai2X2+…+aipXp, ahol i futóindex, és p a vizsgált változók száma. A főkomponens elemzés során a kutató két dologban reménykedik: 1. A szórás megmagyarázott hányada egy-két főkomponens alapján eléri a teljes szórás viszonylag nagy százalékát, lehetőleg 70-80 százalékát. Ekkor az eredeti sok változó helyett elegendő lehet ezt az egy-két változót használni a továbbiakban. 2. A Zi=ai1Xi+ai2X2+…+aipXp, kifejezésben az Xi-hez tartozó aij-k éppen ott nagyok, ahol a kutatás hipotézise szerint az kívánatos (értelmes). Két főkomponens alapján koordináta rendszerben elhelyezve a megfigyelt objektumokat, lehetséges azok világos megkülönböztetése, osztályozása, ábrázolása sok dimenzió helyett két dimenzióban.
47
Az egyes objektumokat (megfigyelési egységeket, például országokat, intézményeket, embereket) itt egy-egy pont jelöl, amelyek világosan elkülönülnek egymástól. Az objektumok neve rendszerint megjelenik a pont mellett azok könnyű azonosítása érdekében. A két tengely a megfelelő főkomponenseknek felel meg, amelyek mentén az objektumok elkülönülnek egymástól.
Lineáris regresszió. Elméleti megfontolások Legyenek egy kísérletben vagy megfigyeléssorozatban x1,…,xn megfigyelések az ún. független változó értékei, és y1,…,yn az ún. függő változó értékei. A kísérleti vagy megfigyelési adatoktól való eltérést mérhetjük, jellemezhetjük az (yn - kxn)2 értékkel, mert kxn-nek yn-től való eltérése hiba akkor is, ha yn
kxn. Ha az eltérés mértékének (yn-kxn)-t vennénk, és kiszámítanánk az eltérések összegét, akkor nagy hiba esetén is kaphatnánk egészen kicsi értéket, mert az ellenkező előjelű értékek kiegynelíthetik egymást. Ezért az (yn - kxn)2 kifejezéssel számolunk, mert ilyenkor minden hiba pozitív előjelű. Lehetne az |yn - kxn|, vagy az (yn - kxn)4 kifejezéseket is használni, de ez a számításokat megnehezítheti. Legyen az összes hiba az egyes hibák összege: S=Σ(yn-kxn)2 A hiba minimalizálása ennek az összegnek a minimalizálását jelentheti. Ezt a módszert a legkisebb négyzetek módszerének nevezik. Azt a k=Ќ értéket, amelynél dS/dk=0, egyenlet megoldása útján határozhatjuk meg: dS/dk=2 Σ(yn-kxn)(-xn)=0 Innen 2 2kΣy n-2Σxnyn=0 Innen k=Ќ = (Σxnyn)/ (Σx2n)=(x1y1+…+xpyp)/(x21+…+x2p) Ha a különböző kísérletek kn=yn/xn értékei különbözőek, akkor yn helyébe a megfelelő knxn-et helyettesítve: Ќ = (k1x21+…+kpx2p)/(x21+…+x2p) Ha nincs okunk feltételezni, hogy x=0-nál y=0, akkor a legegyszerűbb egyenlet: y=kx+b 48
Ekkor is alkalmazhatjuk a legkisebb négyzetek módszerét. S értékét ebben az esetben az S=Σ(yn-kxn-b)2 képlet adja meg. k és b értékét úgy kell megválasztani, hogy S a lehető legkisebb legyen. Ha b-t máér ismernénk, akkor a fenti képlet jobb oldalán csak k-t kellene változtatni és viszont, tehát a ∂S/∂k=2 Σ(yn-kxn-b)(-xn)=0 és a ∂S/∂b =-2 Σ(yn-kxn)=0 egyenleteket kell megoldani. E két feltételből a következő egyenletrendszert kapjuk k és b értékének meghatározására: Σ(xnyn-kΣx2n-bΣxn)=0 és Σ(yn-kΣxn-bp)=0 E kettőből k és b értéke, ha: σ1=Σxn, σ2=Σx2n és r0=Σyn, r1=Σxnyn, akkor egyenletrendszerünket átírhatjuk a következő alakra: σ2k+σ1b= r1 ésσ1k+pb= r0 Megoldva k-ra és b-re: k=(pr1-r0σ1)/pσ2-σ21) és b=(r0σ2-r1σ1)/pσ2-σ21).
Lineáris regresszió. Gyakorlati szempontok Lineáris regresszió általános formája: Y: magyarázandó változó x1, x2, …., xn magyarázó változók Stepwise regresszió (lépésenkénti regresszió): Automatizált modellkeresést valósít meg Kétféle forgatókönyv szerint: 1. backward elimination (keresés visszafelé) 2. forward selection (keresés előre) Backward elimination esetén a kiindulási modell a következő: y = x0 + b1x1 + b2x2 + bnxn + εi majd lépésenként sorban elhagyja az egyes magyarázó változókat és vizsgálja az illeszkedés jóságát. Az utolsó modellben lehetőleg minden magyarázó változó koefficiens szignifikáns. Forward selection esetén a kiindulási modell a következő: y = x0 + εi majd lépésenként sorban hozzáadja az egyes magyarázó változókat és vizsgálja az illeszkedés jóságát. Az utolsó modellben lehetőleg minden magyarázó változó koefficiens szignifikáns. Az automatikus kereső eljárások nem helyettesíthetik a kutató gondolkodását, saját munkáját.
49
Példa Üdülés, kirándulás függő változó: 1. a021_3 belföldön mennyit költöttek a háztartásban üdülésre, kirándulásra (Ft/fő/év) Független változók: 2. 3. 4. 5. 6. 7. 8.
a002_1 hány éve volt üdülni utoljára a015 hányszor volt kirándulni 1997-ben a060 háztartás tagjainak a száma a064b hányszor volt telken vagy nyaralóban 1998-ban a065 háztartásban nettó havi jövedelem Ft/fő/hó kor életkor
A fenti módszerekkel keressük a jól "magyarázó" változókat, dimenziókat, "vetületeket", amelyre x egy egységnyi növekedésére Y "jelentősen" (nem a mintavételi hibának tulajdonítható mértékben) növekszik. Alább a béta koefficiensek megmutatják, hogy a független változó egy egységgel való növelésével a függő változó hány egységgel növekszik. Stepwise Regression - Backward elimination Model Summary
Model 1 2 3 4
R ,581a ,581b ,580c ,578d
R Square ,338 ,338 ,337 ,334
Adjusted R Square ,293 ,301 ,307 ,312
Std. Error of the Estimate 14663,1652 14583,7903 14514,8000 14459,6959
a. Predictors: (Constant), A002_1 hány éve volt üdülni utoljára, A064B Hányszor volt a telken v. nyaralón 1998-ban, A060 Háztartás tagjainak száma (fõ), A015 Hányszor volt kirándulni, A065 Nettó jövedelem háztartásban (Ft/fõ/hó), KOR Age b. Predictors: (Constant), A002_1 hány éve volt üdülni utoljára, A064B Hányszor volt a telken v. nyaralón 1998-ban, A015 Hányszor volt kirándulni, A065 Nettó jövedelem háztartásban (Ft/fõ/hó), KOR Age c. Predictors: (Constant), A002_1 hány éve volt üdülni utoljára, A015 Hányszor volt kirándulni, A065 Nettó jövedelem háztartásban (Ft/fõ/hó), KOR Age d. Predictors: (Constant), A015 Hányszor volt kirándulni, A065 Nettó jövedelem háztartásban (Ft/fõ/hó), KOR Age
50
ANOVAe Model 1
2
3
4
Regression Residual Total Regression Residual Total Regression Residual Total Regression Residual Total
Sum of Squares 9660624653,876 18920740387,060 28581365040,936 9652227444,478 18929137596,458 28581365040,936 9620217383,077 18961147657,859 28581365040,936 9554829827,620 19026535213,316 28581365040,936
df 6 88 94 5 89 94 4 90 94 3 91 94
Mean Square 1610104108,979 215008413,489
F 7,489
Sig. ,000a
1930445488,896 212686939,286
9,076
,000b
2405054345,769 210679418,421
11,416
,000c
3184943275,873 209082804,542
15,233
,000d
a. Predictors: (Constant), A002_1 hány éve volt üdülni utoljára, A064B Hányszor volt a telken v. nyaralón 1998-ban, A060 Háztartás tagjainak száma (fõ), A015 Hányszor volt kirándulni, A065 Nettó jövedelem háztartásban (Ft/fõ/hó), KOR Age b. Predictors: (Constant), A002_1 hány éve volt üdülni utoljára, A064B Hányszor volt a telken v. nyaralón 1998-ban, A015 Hányszor volt kirándulni, A065 Nettó jövedelem háztartásban (Ft/fõ/hó), KOR Age c. Predictors: (Constant), A002_1 hány éve volt üdülni utoljára, A015 Hányszor volt kirándulni, A065 Nettó jövedelem háztartásban (Ft/fõ/hó), KOR Age d. Predictors: (Constant), A015 Hányszor volt kirándulni, A065 Nettó jövedelem háztartásban (Ft/fõ/hó), KOR Age e. Dependent Variable: A021_3 belf üdül,kiránd. Ft/fõ/év
51
Coefficientsa
Model 1
2
3
4
(Constant) A015 Hányszor volt kirándulni A060 Háztartás tagjainak száma (fõ) A065 Nettó jövedelem háztartásban (Ft/fõ/hó) KOR Age A064B Hányszor volt a telken v. nyaralón 1998-ban A002_1 hány éve volt üdülni utoljára (Constant) A015 Hányszor volt kirándulni A065 Nettó jövedelem háztartásban (Ft/fõ/hó) KOR Age A064B Hányszor volt a telken v. nyaralón 1998-ban A002_1 hány éve volt üdülni utoljára (Constant) A015 Hányszor volt kirándulni A065 Nettó jövedelem háztartásban (Ft/fõ/hó) KOR Age A002_1 hány éve volt üdülni utoljára (Constant) A015 Hányszor volt kirándulni A065 Nettó jövedelem háztartásban (Ft/fõ/hó) KOR Age
Unstandardized Coefficients B Std. Error 5577,105 9804,334
Standardized Coefficients Beta
t ,569
Sig. ,571
1310,125
292,620
,425
4,477
,000
-273,496
1383,918
-,019
-,198
,844
7196,240
1870,246
,365
3,848
,000
-301,141
128,454
-,229
-2,344
,021
17,926
46,423
,036
,386
,700
182,049
339,812
,052
,536
,593
4200,213
6860,683
,612
,542
1301,365
287,678
,422
4,524
,000
7298,857
1786,992
,370
4,084
,000
-293,356
121,604
-,223
-2,412
,018
17,912
46,172
,036
,388
,699
179,516
337,732
,051
,532
,596
3847,579
6768,032
,568
,571
1338,788
269,740
,435
4,963
,000
7364,753
1770,486
,374
4,160
,000
-289,412
120,605
-,220
-2,400
,018
186,959
335,591
,053
,557
,579
4273,884
6699,105
,638
,525
1309,344
263,507
,425
4,969
,000
7087,003
1692,390
,360
4,188
,000
-266,364
112,858
-,203
-2,360
,020
a. Dependent Variable: A021_3 belf üdül,kiránd. Ft/fõ/év
52
Kereszttáblák elemzése A kereszttábla két vagy több kategoriális változó együttes megoszlásának megjelenítésére szolgál. Hagyományosan a kereszttábla szerkezete a következő:
B * A Crosstabulation A 1 B
1
Count % within B % within A % of Total Count % within B % within A % of Total Count % within B % within A % of Total
2
Total
10 33,3% 25,0% 10,0% 30 42,9% 75,0% 30,0% 40 40,0% 100,0% 40,0%
2 20 66,7% 33,3% 20,0% 40 57,1% 66,7% 40,0% 60 60,0% 100,0% 60,0%
Total 30 100,0% 30,0% 30,0% 70 100,0% 70,0% 70,0% 100 100,0% 100,0% 100,0%
Az első sorban látható a gyakoriság (Count) A második sorban látható a sorszázalék (% within B or row percent) A harmadik sorban látható az oszlopszázalék (% within A or column percent) A negyedik sorban látható az összes százalék (% of Total or total percent) A sorszázalék soronként 100 %-ot, az oszlopszázalék oszloponként 100 %-ot ad ki.
Függetlenségvizsgálat A függetlenségvizsgálat során a megfigyelt táblából először kiszámításra kerül a függetlenség modelljének megfelelő várt tábla. A fenti példában annak a valószínűsége, hogy A=1 és B=1 együttesen következik be, feltéve, hogy A és B független egymástól, a két marginális valószínűség (P(A=1) és P(B=1) szorzata. B * A Crosstabulation Expected Count A 1 B Total
1 2
2 12,0 28,0 40,0
18,0 42,0 60,0
Total 30,0 70,0 100,0
Ennek megfelelően a modell esetén várt cellagyakoriságok 12, 18, 28 és 42 a fenti példában. 53
A modell illeszkedését a chi-négyzet próba segítségével teszteljük.
2
( megfigyelt várt ) 2 várt
ahol az (1,1) megfigyelt cellagyakoriság 10 és a várt 12, az (1,2) megfigyelt 20 és a várt 18 stb. Az így kapott chi-négyzet-értékhez és (i-1)(j-1) szabadságfokhoz tartozó p-érték táblázatokból kikereshető, ill. az SPSS programcsomag automatikusan kiírja ezt a p-értéket, ahol i a sorok és j az oszlopok száma. Ha p<0,05, akkor a függetlenség modelljét el kell vetni (van összefüggés A és B között és az eredmény szignifikáns), ha viszont p>=0,05, akkor 5 %-os szinten A és B között nincs összefüggés.
Nominális változójú többdimenziós kereszttáblák elemzése Nominális változójú többdimenziós kereszttáblák elemzésére szolgálnak a loglineáris modellek. A nominális változójú többdimenziós kereszttáblák megjelenítése háromnál több változó eseténb a hagyományos módon nehézkes. Ilyenkor szokásos valamilyen konvenció szerint az alábbi megjelenítési formát használni: A 1 2 1 2 1 2
B 1 1 2 2 1 1
C 1 1 1 1 2 2
D 1 1 1 1 1 1
Gyakoriság 10 15 ... ... ... ...
Loglineáris modellek A loglineáris modellek általános formája három változó esetén: ln mijk = μ + λiA + λjB + λkC + λijAB + λikAC + λjkBC + λijkABC, ahol mijk a várt cellagyakoriság a (telített) modell esetén, ln a természetes logaritmus, A, B és C megfigyelt kategoriális változók, λiA, λjB, λkC megfelel A, B és C hatásának egyedül, λijAB, λikAC, λjkBC és λijkABC megfelel a két-, illetve háromváltozós interakciós tagoknak. Ily módon a tábla várt cellagyakoriságai felbonthatók különböző interakciós hatásokra. a szóráselemzéshez (ANOVA) hasonló módon. A modell a likelihood ratio statisztika vagy a Pearson-féle chinégyzet statisztika segítségével tesztelhető adott szabadságfok mellett. Ha a p-érték >=0,05, akkor a modell elfogadható. 54
Háromdimenziós kereszttáblában a telített modell megfelel a megfigyelt táblának, jele: ABC. Háromdimenziós kereszttáblában a következő modelleket definiálják: A B C AB AC BC AB, C AC, B BC, A AB, AC AC, BC AB, AC, BC ABC Mindegyik modellhez tartozik egy p-érték, amely a modell illeszkedését jellemzi. A modellek egy része grafikusan ábrázolható (grafikus modellek). AB, C jelentése például az, hogy A és B összefügg egymással, de mindekettő független C-től. AB, AC jelentése az, hogy A közös rétegeiben B és C (feltételesen) független egymástól.
Ordinális változójú kereszttáblák elemzése Az ordinális változójú kereszttáblák elemzése során felhasználható az esélyhányados. Az eseélyhányados (OR=odds ratio) négy szomszédos a,b,c és d cella esetén a következő: ad/bc. Azz esélyhányados értéke 0 és +∞ között változhat.
Linear-by-linear asszociációs modellek A linear-by linear interakciós modellek között a legegyszerűbbek az asszociációs modellek. Az asszociációs modellek az esélyhányadosokra (θ)keresnek valamilyen struktúrát. Kétdimenziós kereszttáblában a következő asszociációs modellek a legismertebbek: függetlenség modell, uniform asszociációs modell, sorhatás, oszlophatás, sor- és oszlophatás modell. A függetlenség modellje esetén θ = 1. A uniform asszociációs modell esetén θ = x, ahol x≠1. A sorhatás modell esetén θi = x, ahol i a sor szerinti futóindex. Az oszlophatás modell esetén θj = x, ahol j az oszlop szerinti futóindex. A sor- és oszlophatás modell esetén θij = x, ahol i és j a sor- és oszlop szerinti futóindex. 55
Háromdimenziós kereszttáblában megfogalmaznak különböző feltételes asszociációs modelleket is, amelyek figyelembe veszik a harmadik vagy többedik dimenzió szerint vett rétegeket is.
CHAID-elemzés A CHAID-elemzés (Chi-squared automatic interaction detector) során automatikusan megkeressük a kiválasztott célváltozó legjobb magyarázó, előrejelző változóit a chi-négyzet értékek és a hozzájuk tartozó p-értékek vizsgálata alapján. Példa Magyarázandó változó: A014. Ön szerint a nyugdíjbiztosítási szerveknél rendelkezésre állnak-e a nyugdíj alapjául szolgáló átlagkereset megállapításához szükséges igazolások? 1=Igen, mind megvan, 2=Igen, nagy része megvan, 3=Igen, kis része megvan, 4=Nincs meg, 5=Nem tudja, hogy megvan-e, 6=Nem tudja, hogy mi kell. Legjobb magyarázó változók: A legjobb magyarázó változó az A013: Ön szerint a nyugdíjbiztosítási szerveknél rendelkezésre állnak-e az igazolások valamennyi szolgálati idejére vonatkozóan? 1=Igen, mind megvan, 2=Igen, nagy része megvan, 3=Igen, kis része megvan, 4=Nincs meg, 5=Nem tudja, hogy megvan-e, 6=Nem tudja, hogy mi kell. Azok között, akik az A013 kérdés alapján úgy vélték, hogy 1=Igen, mind megvan, az A014 változó legjobb előrejelző változója az iskolai végzettség, Iskvég2. Azok között, akik az A013 kérdés alapján úgy vélték, hogy 1=Igen, mind megvan, és iskolai végzettségük kevesebb, mint főiskola vagy egyetem, az A014 kérdés legjobb előrejelző változója az A016_1 kérdés, mégpedig az, hogy Tudja-e, hogy konkrétan hova kell fordulnia, ha majd a nyugdíját szeretné intézni. Akik nem tudják, hogy hova kell fordulni, nagyobb arányban mondták, hogy Igen, nagy része megvan az átlagkereset megállapításához szükséges igazolásoknak, mint akik tudják, tehát tájékozottabbak. Azok között, akik az A013 kérdés alapján úgy vélték, hogy 2=Igen, nagy része megvan, az A014 változó legjobb előrejelző változója az a012_1 változó: Jelenleg elsősorban a JÖVEDELEM alapján állapítják meg a nyugellátást. Azok között, akik az A013 kérdés alapján úgy vélték, hogy 1=Igen, nagy része megvan, és úgy vélik, hogy jelenleg elsősorban a JÖVEDELEM alapján állapítják meg a nyugellátást, az A014 kérdés legjobb előrejelző változója az A021_4 kérdés, mégpedig az, hogy Újságokból milyen gyakran értesül a nyugdíjjal kapcsolatos dolgokról. Azok között, akik az A013 kérdés alapján úgy vélték, hogy 1=Igen, nagy része megvan, és úgy vélik, hogy jelenleg elsősorban a JÖVEDELEM alapján állapítják meg a nyugellátást, továbbá gyakran értesülnek újságokból a nyugdíjjal kapcsolatos dolgokról, senki nem mondta, hogy A014 1=Igen, a nyugdíjbiztosítónál minden jövedelemigazolás megvan, míg azok között, akik ritkán vagy nem értesülnek ez az arány 16 %. A mellékelt ábrák és táblák részletesen bemutatják az elágazódó döntési folyamatot.
56
A013
Szolgálati idejéről Nyb-nál igazolások megvannak * A014
Átlagkeresetéről Nyb-nál igazolások megvannak Crosstabulation
A014
A013 Szolgálati 1 idejéről Nyb-nál igazolások megvannak
Total
Minden megvan
Átlagkeresetéről Nyb-nál igazolások megvannak 2 Nagy 3 Kis 5 Nem 6 Nem 1 Minden része része 4 Nincs tudja, hogy tudja, hogy megvan meg megvan megvan megvan-e mi kell 560 15 3 5 20 1
Count % within A013 Szolgálati idejéről Nyb-nál igazolások megvannak 2 Nagy része megvan Count % within A013 Szolgálati idejéről Nyb-nál igazolások megvannak 3 Kis része megvanCount % within A013 Szolgálati idejéről Nyb-nál igazolások megvannak 4 Nincs meg Count % within A013 Szolgálati idejéről Nyb-nál igazolások megvannak 5 Nem tudja, hogy Count megvan-e % within A013 Szolgálati idejéről Nyb-nál igazolások megvannak 6 Nem tudja, hogy Count mi kell % within A013 Szolgálati idejéről Nyb-nál igazolások megvannak Count % within A013 Szolgálati idejéről Nyb-nál igazolások megvannak
Total 604
92,7%
2,5%
,5%
,8%
3,3%
,2%
100,0%
15
76
2
2
15
1
111
13,5%
68,5%
1,8%
1,8%
13,5%
,9%
100,0%
4
1
6
2
13
30,8%
7,7%
46,2%
15,4%
100,0%
3
2
1
25
5
36
8,3%
5,6%
2,8%
69,4%
13,9%
100,0%
12
4
2
5
129
3
155
7,7%
2,6%
1,3%
3,2%
83,2%
1,9%
100,0%
2
3
20
25
8,0%
12,0%
80,0%
100,0%
596
98
14
37
174
25
944
63,1%
10,4%
1,5%
3,9%
18,4%
2,6%
100,0%
2
Chi-Square Tests Asymp. Sig. Value df (2-sided) Pearson Chi-Square 2247,293a 25 ,000 Likelihood Ratio 1128,004 25 ,000 Linear-by-Linear 633,581 1 ,000 Association N of Valid Cases 944 a. 19 cells (52,8%) have expected count less than 5. The minimum expected count is ,19.
3
4
5
Select if a13=1; Crosstabs iskveg2 by a014 ISKVEG2
iskolai végzettség * A014
Átlagkeresetéről Nyb-nál igazolások megvannak Crosstabulation A014 1
ISKVEG2 iskolai végzettség
Total
1
<=8 általános
Count % within ISKVEG2 iskolai végzettség 2 szakmunk., Count szakisk % within ISKVEG2 iskolai végzettség 3 szakközép., gimn, Count techn % within ISKVEG2 iskolai végzettség 4 főiskola, egyetem Count % within ISKVEG2 iskolai végzettség Count % within ISKVEG2 iskolai végzettség
Minden megvan 47
Átlagkeresetéről Nyb-nál igazolások megvannak 2 Nagy 3 Kis 5 Nem 6 Nem 4 Nincs tudja, hogy tudja, hogy része része meg megvan megvan megvan-e mi kell 1 1 2,0%
Total 49
95,9%
2,0%
100,0%
139
1
2
7
149
93,3%
,7%
1,3%
4,7%
100,0%
227
6
2
3
13
1
252
90,1%
2,4%
,8%
1,2%
5,2%
,4%
100,0%
146
7
153
95,4%
4,6%
100,0%
559
15
3
5
20
1
603
92,7%
2,5%
,5%
,8%
3,3%
,2%
100,0%
Chi-Square Tests Value 23,442a 32,250
df
Asymp. Sig. (2-sided) ,075 ,006
Pearson Chi-Square 15 Likelihood Ratio 15 Linear-by-Linear ,727 1 ,394 Association N of Valid Cases 603 a. 17 cells (70,8%) have expected count less than 5. The minimum expected count is ,08.
6
7
Select if a13 = 1 & iskveg2 < 4; Crosstabs a016_2 by a014 A016_1
Hova kell fordulnia, ha majd a nyugdíját szeretné intézni * A014 megvannak Crosstabulation A014 1
A016_1 Hova kell 1 fordulnia, ha majd a nyugdíját szeretné intézni 2
Igen
Nem
Total
Count % within A016_1 Hova kell fordulnia, ha majd a nyugdíját szeretné intézni Count % within A016_1 Hova kell fordulnia, ha majd a nyugdíját szeretné intézni Count % within A016_1 Hova kell fordulnia, ha majd a nyugdíját szeretné intézni
Minden megvan 292
Átlagkeresetéről Nyb-nál igazolások
Átlagkeresetéről Nyb-nál igazolások megvannak 2 Nagy 3 Kis 5 Nem 6 Nem része része 4 Nincs tudja, hogy tudja, hogy megvan megvan megvan-e mi kell meg 2 3 3 17
92,1%
,6%
121
,9%
Total 317
,9%
5,4%
100,0%
6
2
3
1
133
91,0%
4,5%
1,5%
2,3%
,8%
100,0%
413
8
3
5
20
1
450
91,8%
1,8%
,7%
1,1%
4,4%
,2%
100,0%
Chi-Square Tests Value 13,888a 14,148
5 5
Asymp. Sig. (2-sided) ,016 ,015
1
,599
df
Pearson Chi-Square Likelihood Ratio Linear-by-Linear ,277 Association N of Valid Cases 450 a. 7 cells (58,3%) have expected 5. The minimum expected count
count less than is ,30.
8
9
Select if a13 = 2; Crosstabs a012_1 by a014 A012_1
Jövedelem alapján állapítják meg a nyugellátást * A014 Crosstabulation A014 1
A012_1 Jövedelem 1 alapján állapítják meg a nyugellátást 2
Igen
Nem
Total
Count % within A012_1 Jövedelem alapján állapítják meg a nyugellátást Count % within A012_1 Jövedelem alapján állapítják meg a nyugellátást Count % within A012_1 Jövedelem alapján állapítják meg a nyugellátást
Minden megvan 10
Átlagkeresetéről Nyb-nál igazolások megvannak
Átlagkeresetéről Nyb-nál igazolások megvannak 2 Nagy 3 Kis 5 Nem 6 Nem része része 4 Nincs tudja, hogy tudja, hogy megvan megvan megvan-e mi kell meg 56 2 14 1 2,4%
16,9%
1,2%
Total 83
12,0%
67,5%
100,0%
5
20
2
1
28
17,9%
71,4%
7,1%
3,6%
100,0%
15
76
2
2
15
1
111
13,5%
68,5%
1,8%
1,8%
13,5%
,9%
100,0%
Chi-Square Tests Value 10,250a 11,339
5 5
Asymp. Sig. (2-sided) ,068 ,045
1
,069
df
Pearson Chi-Square Likelihood Ratio Linear-by-Linear 3,310 Association N of Valid Cases 111 a. 8 cells (66,7%) have expected 5. The minimum expected count
count less than is ,25.
10
11
Select if a013 = 2 & a012_1 = 1; Cross a021_4 by a014 A021_4
Újságokból értesül nyugdíjjal kapcs.dolgokról * A014 Átlagkeresetéről Nyb-nál igazolások megvannak Crosstabulation A014
A021_4 Újságokból értesül nyugdíjjal kapcs.dolgokról
1
2
3
Nem
Ritkán
Gyakran
Total
Count % within A021_4 Újságokból értesül nyugdíjjal kapcs.dolgokról Count % within A021_4 Újságokból értesül nyugdíjjal kapcs.dolgokról Count % within A021_4 Újságokból értesül nyugdíjjal kapcs.dolgokról Count % within A021_4 Újságokból értesül nyugdíjjal kapcs.dolgokról
Átlagkeresetéről Nyb-nál igazolások megvannak 2 Nagy 5 Nem 6 Nem 1 Minden 4 Nincs tudja, hogy tudja, hogy része megvan meg megvan megvan-e mi kell 3 20 5 10,7%
71,4%
7
19
20,0%
Total 28
17,9%
100,0%
1
8
35
54,3%
2,9%
22,9%
100,0%
17
1
1
1
20
85,0%
5,0%
5,0%
5,0%
100,0%
10
56
2
14
1
83
12,0%
67,5%
2,4%
16,9%
1,2%
100,0%
Chi-Square Tests Value 13,007a 15,910
df
Asymp. Sig. (2-sided) ,112 ,044
Pearson Chi-Square 8 Likelihood Ratio 8 Linear-by-Linear ,009 1 ,924 Association N of Valid Cases 83 a. 11 cells (73,3%) have expected count less than 5. The minimum expected count is ,24.
12