Többdimenziós skálázás (MDS) Informatikai Tudomá Tudományok Doktori Iskola
2012. 03. 21.
1
Többdimenziós skálázás Multidimensional Scaling = MDS
Adott: egy olyan adatállomány, amelyet valamilyen megadott külsı objektumokra (pl. tárgyakra, személyekre) vonatkozó hasonlósági vagy különbözıségi adatok (általában skálázott szubjektív vélemények, vagy észlelt különbségek) alkotnak. Cél: olyan geometriai reprezentációk létrehozása a hasonlósági vagy különbözıségi adatokból, amelyek az adott külsı tárgyak (észlelt) viszonyát egy megfelelı dimenzió-számú geometriai térben a lehetı legpontosabban tükrözik vissza.
Az eljárás eredménye mindig egy ponthalmaz egy adott dimenziószámú geometriai térben. A ponthalmaz képe alapján kísérletet tehetünk koordinátatengelyek megadására, amivel rejtett dimenziókat tárhatunk fel. 2012. 03. 21.
2
Bevezetés 1. Egy-egy problémánál pl. a rejtett dimenziók az alábbiak lehetnek:
• Gépkicsivásárlásnál milyen szempontokat vesznek figyelembe az
emberek? (A gazdaságosságot? A megbízhatóságot? A kényelmet? A sportosságot?)
•
Egy politikusra történı szavazásnál milyen szempontok alapján döntenek a szavazók? (Párthoz tartozása alapján? Az adózásról, az oktatásügyrıl vagy az egészségügyrıl vallott személyes nézetei alapján? Sajtóbeli ismertsége alapján?)
• Milyen tényezık befolyásolják egy munkacsoport tagjainak egymás közötti beszélgetésének a módját? (A beszélgetık
formális státusza, szakmai tudása, szocio-ekonómiai helyzete vagy személyes dominanciája?) 2012. 03. 21.
3
Bevezetés 2. • Milyen tényezık határozzák meg az emberek munkahelyi
közérzetét? (A fizetés? Az emberi kapcsolatok? A munkahely fizikai jellemzıi?, Az elımeneteli lehetıség? A munka tartalma?)
• Milyen szempontok alapján kategorizálják az emberek az egyes
foglalkozásokat, népcsoportokat, nemzeteket vagy országokat? (Közismert sztereo-típiák, saját tapasztalataik, a médiumok sugalmazása vagy tekintélyes közszereplık véleménye alapján?)
• Milyen szempontok alapján ítélik meg a felhasználók az egyes
termékek minıségét vagy vonzerejét és hogyan azonosíthatók ezek közül a legfontosabbak? (Az ára, a márkája, divatszempontok vagy a tényleges szükségletek alapján?
2012. 03. 21.
4
Bevezetés 3. Ilyen és hasonló kérdésekre próbál az MDS alkalmazása választ adni, többnyire sikerrel. Az MDS alapgondolata az, hogy az emberek döntéseiket és ítéleteiket a fejükben - kognitív vagy érzelmi rendszerükben - létezı belsı dimenzióik alapján hozzák meg. Ezek a dimenziók többnyire rejtve vannak még az aktuális döntéshozók vagy véleményalkotók elıtt is, de megfelelı technikákkal - faktoranalízissel vagy az MDS módszereivel feltárhatók és megismerhetık.
2012. 03. 21.
5
Az MDS alkalmazásának szempontjai • A faktoranalízis alkalmazása mellett szól, hogy abba - bizonyos feltételek teljesülése esetén - igen sokféle és eredetileg más célra összegyőjtött adatokból konstruált változó bevonható, • míg az MDS alkalmazásához speciálisabb „távolság” vagy „hasonlóság” jellegő adatokra van szükség, amelyek általában csak erre a célra tervezett kísérletekben vagy felmérésekben nyerhetık. • Ugyanakkor a faktoranalízis modellje feltételezi az egyes faktorok lineáris összegzıdését - ún. lineáris kombinációját - amit a gyakorlatban gyakran semmi sem támaszt alá. •
A tapasztalat az, hogy ha sikerül alkalmas hasonlósági mértékeket definiálni és azokat megfelelı pontossággal megmérni, akkor az MDS sokszor lényegesen jobb eredményt adhat, mint a faktoranalízis. Az eredmények meglepıen pontosak és igen jól reprodukálhatóak lehetnek.
2012. 03. 21.
6
Az MDS szemléleti és matematikai alapjai 1.
„Egy kép akár ezer szót is megér ” Vajon hány oldalon lehet szavakban elmondani, amit egy vizuális élmény nyújt?
• Általános törekvés a tudományokban valamilyen szemléletes módon úgy ábrázolni adatokat, hogy az egymáshoz valamilyen szempontból közelibbnek érzékelt vagy gondolt objektumok az ábrázolásban is közel kerüljenek egymáshoz, a távolibbnak felfogottak pedig az ábrázolásban is távol legyenek egymástól. • Ezek az ábrázolások valamiféle geometriai reprezentációk, amelyek az ábrázolt objektumok viszonyát valamilyen szempontból helyesen - vagy közelítıleg helyesen - tükrözik vissza.
2012. 03. 21.
7
Az MDS szemléleti és matematikai alapjai 2. • A MDS módszerei arra szolgálnak, hogy segítségükkel adott objektumokra vonatkozó észlelt hasonlósági vagy különbözıségi adatokból szisztematikus módon létrehozhassunk olyan geometriai reprezentációkat, amelyek ezen objektumok észlelt viszonyát egy megfelelı dimenziószámú geometriai térben a lehetıség szerinti legkisebb torzítással tükrözik vissza. • Az eljárás eredménye tehát mindig egy ponthalmaz „képe” „térképe” - egy elıre meghatározott típusú geometriai térben, amelyben az egyes pontok úgy helyezkednek el, hogy egymás közötti távolságaik ismert pontossággal megfelelnek azon objektumok észlelt tulajdonságai közötti különbözıségeknek, amelyekhez ezek a pontok tartoznak.
2012. 03. 21.
8
Az MDS szemléleti és matematikai alapjai 3. • Már sokszor ez a szemléletes ábrázolás önmagában is sokat segít az adott jelenség megértésében, ha valamilyen szabályszerőség vagy „mintázat” fedezhetı fel benne, de ez még önmagában nem skálázás. • Ha azonban az adott térben sikerül olyan koordináta tengelyeket találni, amelyek mentén az objektumok elhelyezkedése jól értelmezhetı, akkor ezeknek a tengelyeknek az alkalmas beskálázásával minden objektumhoz skálaértékeket rendelhetünk az adott dimenziók mentén.
2012. 03. 21.
9
Az MDS szemléleti és matematikai alapjai 4. • Az MDS fı ereje abban áll, hogy a tisztán pszichológiai eszközökkel nyert különbözıség-érzékelési adatok alapján lehetıvé teszi korábban nem ismert, de esetenként meghatározó szerepő dimenziók felismerését. • Ezek a különbözıség-érzékelési adatok pedig természetesen akkor is jól mérhetık, ha semmilyen elızetes elképzelésünk nincs arról, hogy az érzékelt különbözıséget milyen dimenziók határozzák meg.
2012. 03. 21.
10
Az MDS szemléleti és matematikai alapjai 5. • A létrehozott geometriai reprezentáció „a lehetıség szerinti legkisebb torzítással”, illetve „ismert pontossággal” kell, hogy leképezze az érzékelt különbözıségeket, mert - amint az a következı egyszerő két dimenziós példán könnyen belátható az érzékelt különbözıségeknek pontosan megfelelı geometriai konfiguráció nem mindig állítható elı, azaz a feladatnak nem mindig létezik egzakt megoldása az adott térben. • Célunk ezért az, hogy legalább a lehetséges legjobb közelítı megoldást - az ún. optimális konfigurációt -találjuk meg.
2012. 03. 21.
11
Az MDS szemléleti és matematikai alapjai 6. Egy p-dimenziós sokaságot lehet egy k=1,2 vagy 3 dimenziós Euklideszi ponthalmazzal vizualizálni. A ponthalmaz távolságviszonyai az eredeti sokaság eseteinek távolságviszonyaival nagymértékben egyezik. A vizualizálás révén tanulmányozható a statisztikai sokaság térbeli struktúrálódása. Jellegzetes tömörülések, irányokfedezhetık fel az elkészült scatter-grafikonon. 1. eset 2. eset
M n. eset 2012. 03. 21.
12
Az MDS szemléleti és matematikai alapjai 7. Az esetvektorok egymástól vett nxn-es távolságmátrixa
Megkonstruálhatók olyan k=1,2 vagy 3 dimenziós vektorok, melyek nxn-es Euklideszi távolságmátrixa nagymértékben hasonló -hez.
„kicsi” kicsi”
2012. 03. 21.
13
Távolságmátrix, Euklideszi távolságmátrix Az n×n-es D távolságmátrix komponensei kielégítik az alábbiakat: • D diagonális elemei 0-ák: dii=0; • D szimmetrikus mátrix: dij=dji; • D komponensei kielégítik a háromszög-egyenlıtlenséget: dij≤dik+dkj; A D távolságmátrix akkor Euklideszi, ha valamely p dimenzióhoz megadható n db p-dimenziós x1, x2, …, xn vektorok, amikkel dij=||xi-xj||. Az n×n-es D távolságmátrix akkor és csak akkor Euklideszi, ha a B=H · A · H mátrix pozitív szemidefinit, ahol aij=-½ dij² és H az ú.n. centráló mátrix: H=E-1/n · 1·1T
Távolságmátrix, Euklideszi távolságmátrix Ha D egy Z=(z1, z2,…, zn)T konfiguráció Euklideszi távolságmátrixa, akkor bij=(zi-z)T·(zj-z), i,j=1,2,…,n, ahol z az átlagvektor. Ha B=H · A · H (aij=-½ dij² ) egy n-edrangú pozitív szemidefinit mátrix, akkor az alábbi módon konstruálhatjuk meg a Z=(z1, z2,…, zn)T pontkonfigurációt. Legyenek λ1 ≥ λ2 ≥ … ≥ λn > 0 a B pozitív sajátértékei és z1, z2,…, zn a megfelelı ortogonális sajátvektorok: ziT·zi=λi. Ekkor a Z=(z1, z2,…, zn)T pontkonfiguráció Euklideszi távolságmátrixa éppen D.
Távolságmátrix, Euklideszi távolságmátrix Adott objektumoknak egy D távolságmátrixa. Ehhez szeretnénk konstruálni olyan Z=(z1, z2,…, zn)T k-dimenziós vektorokból álló konfigurációt, amelynek Ď Euklideszi távolságmátrixa valamilyen értelemben „hasonló”, „közeli” D-hez. Általában a k dimenziószámot sem ismerjük, de a szemléltetés miatt k-t 1-nek, 2-nek esetleg 3-nak szokták választani. A szemléltetés sikerességét az alábbi mennyiséggel jellemezzük: n
Φ=
∑ (d
2 ij
− dˆ ij
2
)
i , j =1
Példa Mérı László (1986) nyomán • Kísérleti személyünk öt fızeléket hasonlított össze páronként minden lehetséges módon. • Feladata a párok globális - összbenyomás alapján történı összehasonlítása volt a „vonalhosszúság-becslés” módszerével: egy 6 cm hosszú szakaszon kellett bejelölni a különbözıség mértékét.
0.0 cm
6.0 cm
teljes hasonlóság
teljes különbözıség
2012. 03. 21.
17
Példa Mérı (1986) nyomán Az eredm ények m átrixa: S penót K elkáposzta 0.0 2.2 Spenót 2.2 0.0 K elkáposzta 1.3 3.2 Sóska 3.0 K arfiol 3.5 2.8 3.5 Saláta
Sóska
K arfiol
Saláta
1.3 3.2
3.5 3.0
2.8 3.5
0.0 5.0 1.6
5.0 0.0 5.5
1.6 5.5 0.0
Vizsgáljuk meg, hogy létezik-e a síkban öt olyan pont, amelyek egymástól éppen a mátrixban található távolságokra vannak!
2012. 03. 21.
18
Példa Mérı (1986) nyomán Az eredm ények m átrixa: S penót K elkáposzta 0.0 2.2 Spenót 2.2 0.0 K elkáposzta 1.3 3.2 Sóska 3.0 K arfiol 3.5 2.8 3.5 Saláta
Sóska
K arfiol
Saláta
1.3 3.2
3.5 3.0
2.8 3.5
0.0 5.0 1.6
5.0 0.0 5.5
1.6 5.5 0.0
2.2 Spenót
Kelkáposzta
2012. 03. 21.
19
Példa Mérı (1986) nyomán Az eredm ények m átrixa: S penót K elkáposzta 0.0 2.2 Spenót 2.2 0.0 K elkáposzta 1.3 3.2 Sóska 3.0 K arfiol 3.5 2.8 3.5 Saláta
Sóska
K arfiol
Saláta
1.3 3.2
3.5 3.0
2.8 3.5
0.0 5.0 1.6
5.0 0.0 5.5
1.6 5.5 0.0
3.2 1.3 2.2 Spenót
Kelkáposzta
Sóska 2012. 03. 21.
20
Példa Mérı (1986) nyomán Az eredm ények m átrixa: S penót K elkáposzta 0.0 2.2 Spenót 2.2 0.0 K elkáposzta 1.3 3.2 Sóska 3.0 K arfiol 3.5 2.8 3.5 Saláta
3.5
K arfiol Karfiol
Saláta
1.3 3.2
3.5 3.0
2.8 3.5
0.0 5.0 1.6
5.0 0.0 5.5
1.6 5.5 0.0
3.2 3.0
1.3 2.2 Spenót
5.0
Sóska
Kelkáposzta
Sóska 2012. 03. 21.
21
A klasszikus többdimenziós skálázás (CMDS) 1. • Az elıbbi példa az MDS legegyszerőbb változatát, a CMDS-t (Classical MDS) szemlélteti. • A CMDS az MDS legkorábban kidolgozott típusa, amely csupán egyetlen különbözıségi mátrixot - pl. egyetlen személy bizonyos objektumokra vonatkozó különbözıség-érzékelési adatait - képes egyidejőleg kezelni, és megkívánja a bemenı adatoktól a legalább intervallum-skálát (metrikus MDS). • A CMDS alkalmazhatósága korlátozott, mert tipikusan több személy adatait szeretnénk egyidejőleg feldolgozni.
2012. 03. 21.
22
A klasszikus többdimenziós skálázás (CMDS) 2. • Az i és j pontoknak megfelelı objektumok közötti különbözıség-érzékletet a létrehozott pontkonfigurációban az i és j pontok dij euklideszi távolságával képezi le, ami két dimenzióban a Pithagorasztétel alapján a következıképpen írható:
2. dimenzió xi2
i pont dij2==[((xi2i2 – xj2j2)22 + (xj1j1 - xi1i1)22]½ (distance, dissimilarity)
j pont
xj2 2012. 03. 21.
xi1
xj1
1. dimenzió
23
A klasszikus többdimenziós skálázás (CMDS) 3. • Az r darab dimenzióra általánosított modell alapja, hogy az i és j pontoknak megfelelı objektumok közötti különbözıségérzékletet az r dimenziós térben az i és j pontok dij euklideszi távolságával a következıképpen adjuk meg:
1 r 2 2 dij =∑ x −x ja ia a
2012. 03. 21.
xia az i pont, xja pedig a j pont koordinátája az a dimenzión. Ez a formula a Pithagorasztétel általánosítása r dimenziós tér esetére.
24
A klasszikus többdimenziós skálázás (CMDS) 4. • A D távolság-mátrix elemei az egyes dij (distance, dissimilarity) értékek, amelyek a létrehozott pontkonfigurációt jellemzik. • Ennek a pontkonfigurációnak az eltérése az eredeti észlelési adatokat tartalmazó S különbözıség-mátrixtól - pontosabban annak egy célszerően választott lineáris transzformáltjától: (disparity) - mutatja, hogy egy megtalált megoldásnak mekkora a hibája. • Ennek ellenırzése az SPSS-ben a következı három illeszkedési mutató segítségével történik: s-stress, stress és RSQ.
2012. 03. 21.
25
A klasszikus többdimenziós skálázás (CMDS) 5.
1 eredeti észlelések és pontkonfiguráció különbségébıl E 2 s − stress = A s-stress definiciója: T eredeti észlelésekbıl
||E|| az E (Error) hiba-mátrix elemei négyzeteinek az összege, ||T|| pedig az eredeti észlelések S különbözıség-mátrixából alkalmas lineáris transzformációval létrehozott T (Transformed) transzformált mátrix elemei négyzeteinek az összege. Mivel T = l{S}, ahol l a lineáris transzformációra utal, és ||E|| = ||T-D2||, ahol a D2 mátrix elemei az egyes dij távolság-értékek négyzetei, az s-stress az összes négyzetes eltéréseket (hibákat) viszonyítja a különbözıség-érzékleteknek pontosan megfelelı összes távolságok négyzeteihez. 2012. 03. 21.
26
A klasszikus többdimenziós skálázás (CMDS) 5. A s-stress szemléletes jelentése: a modell által meghatározott térben az összes észlelt különbözıséghez képest mekkora az elméleti (pontos) távolságok és a modell által létrehozott pontkonfigurációban ténylegesen létrejött távolságoknak az eltérése. Ha tehát tökéletes a megfelelés az eredetileg érzékelt és az ábrázolt különbségek között, akkor a hiba zérus és így s-stress értéke is az. Az SPSS azt a pontkonfigurációt keresi meg, amelyre az s-stress
minimális.
2012. 03. 21.
27
A klasszikus többdimenziós skálázás (CMDS) 6. A stress csak abban tér el az s-stress-tıl, hogy a formulában nem a távolságok négyzetei, hanem maguk a távolságok szerepelnek (az s-stress-nevében az s bető a négyzetre - square - utal). Tehát az s-stress és stress minél kisebb értékei a kívánatosak, mert ezek felelnek meg a minél kisebb torzításnak. Mindkét mutatóra érvényes közelítı tájékozódási szabály található a következı táblázatban.
2012. 03. 21.
28
A klasszikus többdimenziós skálázás (CMDS) 7. s-stress, A rekonstrukció minısége illetve stress értéke 0 - 0.05 Kiváló, valószínőleg minden releváns információt tartalmaz 0,05 - 0.10 Jó 0.10 -0.20 Elfogadható, érdemes foglalkozni vele. Az eredmény többnyire még értelmezhetı. 0.20 fölött Az adott dimenziószámnál csak nagy információ-veszteséggel ábrázolható az eredeti különbözıség-mátrix, meg kell próbálkozni eggyel magasabb dimenziószámmal. 2012. 03. 21.
29
A klasszikus többdimenziós skálázás (CMDS) 8. RSQ (R SQUARED) - az SPSS által kiszámított harmadik illeszkedési mutató - egyszerően a T és D mátrixok megfelelı elemei között kiszámított korrelációs együttható négyzete, amely közvetlenül megadja, hogy az összes varianciának milyen hányadát tudja magyarázni az adott MDS modell. Ennél a mutatónál - az elızı kettıvel szemben természetesen az alacsonyabb értékek rosszabb illeszkedést jeleznek.
2012. 03. 21.
30
A klasszikus többdimenziós skálázás (CMDS) 9. RSQ (R SQUARED) Karfiol Saláta
távolság-mátrix dij elemei
(distances, dissimilarities)
Spenót Sóska
2012. 03. 21.
eredeti észlelési adatok transzformáltja (disparities)
31
A nemmetrikus CMDS 1. Problémák a metrikus CMDS-el: • Nincs garancia arra, hogy az emberek hasonlósági ítéleteiket valóban egyenletesen skálázzák (pl. vonalhosszúság-becslés esetén 1 cm általában nagyobb szubjektív különbséget jelent a széleken, mint a vonal közepe felé). • Egyes személyek kifejezetten sarkítják a véleményüket. • A metrikus CMDS legalább intervallum-skálájú adatokat követel meg, míg a gyakorlatban általában csak ordinális skálájú adataink vannak. 2012. 03. 21.
32
A nemmetrikus CMDS 2. Az eredm ények m átrixa: S penót K elkáposzta 0.0 2.2 Spenót 3 2.2 0.0 K el3 káposzta 1 6 1.3 3.2 Sóska 3.0 K arfiol 3.5 7,5 5 2.8 4 3.5 7,5 Saláta
Sóska
K arfiol
Saláta
1.3 1 3.2 6
7,5 3.5 3.0 5
4 2.8 3.5 7,5
0.0 5.0 9 1.6 2
9 5.0 0.0 5.5 10
2 1.6 10 5.5 0.0
Térjünk vissza korábbi példához és helyettesítsük a mátrixban található távolságokat rangszámokkal! 2012. 03. 21.
33
Miután a távolságokat rangszámokkal A nemmetrikus CMDShelyét! 2. helyettesítettük, keressük meg a Saláta Az eredm ények m átrixa: S penót K elkáposzta 0.0 2.2 Spenót 3 2.2 0.0 K el3 káposzta 1 6 1.3 3.2 Sóska 3.0 K arfiol 3.5 7,5 5 2.8 3.5 Saláta 4 7,5
Sóska
K arfiol
Saláta
1.3 1 3.2 6
7,5 3.5 3.0 5
4 2.8 3.5 7,5
0.0 5.0 9 2 1.6
9 5.0 0.0 5.5 10
2 1.6 10 5.5 0.0
Karfiol
1-en kívül
9-en kívül
Spenót
3-an kívül 7,5-en belül
Kelkáposzta
Sóska 2012. 03. 21.
6-on kívül
6-on belül
34
A nemmetrikus CMDS 3. • Láttuk, hogy rangszámok alkalmazása esetén a konfiguráció instabil: az egyes pontok helye megváltoztatható anélkül, hogy a rangsor megváltozna (ugyanahhoz a rangsorhoz több konfiguráció is tartozhat). • Jelentıs áttörést jelentett azonban a CMDS fejlıdésében SHEPHARD (1962) azon felismerése, hogy a pontok számának növelésével az egyes pontok mozgástere radikálisan szőkül. • Ebbıl következıen: ha a pontok (objektumok) száma nem túlságosan kicsi a dimenzió-számhoz képest, akkor pusztán az eredeti távolságok sorrendje (tehát egy ordinális skálájú változó) alapján is nagy pontossággal rekonstruálható a kvantitatív konfiguráció.
2012. 03. 21.
35
A nemmetrikus CMDS 4. • A pusztán sorrendi információ alapján történı rekonstrukció két dimenzió és 10 pont esetén már igen pontos, két dimenzió és 15 pont esetén pedig már gyakorlatilag hibátlan. • Az ordinális bemenı adatokkal dolgozó CMDS-t nemmetrikus
CMDS-nek nevezzük. • A nemmetrikus CMDS matematikai modellje megfelel a metrikusénak azzal az eltéréssel, hogy az eredeti S különbözıségmátrixból most nem lineáris, hanem egy alkalmas monoton transzformációval hozzuk létre a T transzformált mátrixot, tehát T = m{S}, ahol m a monoton transzformációra utal. • A három illeszkedési mutató értelemszerően ugyanúgy használható, mint a metrikus CMDS esetében.
2012. 03. 21.
36
A nemmetrikus CMDS 5. Problémák a nemmetrikus CMDS-el: •A nemmetrikus CMDS is csak egyetlen különbözıség-mátrix egyidejő feldolgozására képes, ami erısen korlátozza az alkalmazhatóságát, mert a piackutatásban, termékminısítésben, pszichológiai és szociológiai vizsgálatokban tipikusan több személytıl nyert adat egyidejő feldolgozása a cél. •A CMDS egyszerő személyenkénti ismételgetése általában azért nem elfogadható megoldás, mert ez a vizsgálati terv közvetve azt feltételezi, hogy az egyes személyek különbözıség-érzékletei egymástól tökéletesen függetlenek, bennük semmiféle közös komponens nincs.
2012. 03. 21.
37
A nemmetrikus CMDS 6. Problémák a nemmetrikus CMDS-el: •A modellbıl következıen a nemmetrikus CMDS egyrészt rendkívül számításigényes (n objektum, r dimenziós tér és m személy esetén n x r x m paramétert kell kezelnie), •másrészt az eredmények nehezen értelmezhetık egységesen, mert lényegében m darab független analízist végzünk el. •Az igazán jól használható megoldásokhoz a CMDS-tıl eltérı típusú matematikai modellekre volt szükség, amelyeket a következıkben röviden ismertetünk.
2012. 03. 21.
38
A replikációs többdimenziós skálázás (RMDS) • Az RMDS (Replicated MDS) az MDS egyik olyan típusa, amely már több különbözıségi mátrixot is képes egyidejőleg kezelni. • Alapfeltevés: az egyes objektumok különbözıségei bizonyos véletlenszerő hibáktól eltekintve azonos mértékben tükrözıdnek az m számú személy ítéleteit tartalmazó m számú adatmátrixban (ezek az adat-mátrixok egymásnak mintegy a megismétlései, replikái). • A paraméterek száma itt is n x r x m, de az eredmények egységes keretben értelmezhetık. • Metrikus és nemmetrikus változatok és hasonló módon - de az m számú adat-mátrix egyfajta összegzését is figyelembe véve definiált illeszkedési mérıszámok.
2012. 03. 21.
39
A súlyozott többdimenziós skálázás (WMDS) 1. • A WMDS (Weighted MDS) az MDS olyan továbbfejlesztett típusa, amely azon túl, hogy a RMDS-hez hasonlóan képes egyidejőleg kezelni több különbözıségi mátrixot is, a válaszok mögött meghúzódó egyéni perceptuális és kognitív folyamatok individuális különbségeirıl is bizonyos információkat tud adni. • Alapfeltevés: bár a különbözı személyek az objektumokat azonos dimenziók mentén ítélik meg, ezen dimenzióknak azonban eltérı fontosságokat tulajdonítanak, azaz ezeket a dimenziókat egyénileg eltérı módon súlyozzák és skálázzák. • Emiatt a módszert az individuális különbségek skálázásának is nevezik (INDSCAL).
2012. 03. 21.
40
A súlyozott többdimenziós skálázás (WMDS) 2. • A WMDS matematikailag a súlyozott euklideszi modellen alapszik, amelyben továbbra is adott az ingerek (objektumok) súlyozatlan euklideszi tere, de emellett adott azon súlyok tere is, amelyek az objektumok közötti különbözıség-érzetek jellegzetes egyéni sajátosságait megszabják. • Ezek a wka súlyok 0 és 1 közötti értékeket felvevı paraméterek, amelyek a k. személy különbözıség-érzékelését jellemzik az a dimenzióban: wka nagy (1-hez közeli) értéke az adott a dimenzió viszonylagos fontosságát, kis (0-hoz közeli) értéke pedig az adott dimenzió viszonylagos jelentéktelenségét mutatja a k. személy számára.
2012. 03. 21.
41
A súlyozott többdimenziós skálázás (WMDS) 3. •A súlyok értelmezésénél figyelembe kell venni, hogy azok nem egyszerő skalár mennyiségek, hanem a súly-vektorok komponensei (a bezárt szög hordozza az információt). • Definiálták ezen wka súlyok eggyel kevesebb dimenziójú térre vetített változatát (Flattened Weight), amely már egyszerően értelmezhetı skalár mennyiség. • Az összesen r darab wka súly mellett a k. személyt még egy ún. „különösségi index-szel” (Weirdness Index) is jellemzi a WMDS, amely a súlyok értelmezését segíti. • A 0 és 1 között változó index azt fejezi ki, hogy az adott személy súlyai mennyire különösek vagy szokatlanok a vizsgálatba bevont tipikus személy súlyaihoz viszonyítva.
2012. 03. 21.
42
A súlyozott többdimenziós skálázás (WMDS) 4. • A 0 érték a tipikus személynek felel meg, míg az 1-es érték azt jelzi, hogy az adott személynek csak egyetlen pozitív (nem zérus) súlya van, az összes többi értéke 0. • Ez utóbbi személy az elemzésbe bevont dimenziók közül csak egyet használ és ezért „különösnek” tekintjük. • Jelentıs eltérés a korábbi MDS modellektıl, hogy a WMDS-ben az ingerek tere nem forgatható el, mivel az elforgatás az egyéni dimenzió-súlyozásokat tenné értelmetlenné. • Ebbıl a szempontból a WMDS statisztikailag erısebb eljárás, mint a CMDS és a faktoranalízis. • Ugyancsak léteznek a metrikus és nemmetrikus változatai.
2012. 03. 21.
43
Az MDS elemzések néhány általános vonása az SPSS-ben 1. Meg kell adni az adatok mérési szintjét (measurement level), alakját (shape) és feltételességét (conditionality). A mérési szint megadása az ordinális (ordinal), intervallum (interval) vagy arány (ratio) skála-típusok valamelyikének a választását jelenti. Az adatállomány alakja lehet négyzetes (square) vagy derékszögő (rectangular), a négyzetes típus tovább bontható szimmetrikusra (symmetric) és aszimmetrikusra (asymmetric). 2012. 03. 21.
44
Az MDS elemzések néhány általános vonása az SPSS-ben 2. A négyzetes adatállományban a sorok és oszlopok az objektumok ugyanazon halmazára vonatkoznak (így egy adott adatmezıben levı adat a sornak és az oszlopnak megfelelı két objektum különbözıségét fejezi ki sorok és oszlopok sorrendje ezért fontos!). Ha a két objektum különbözısége az összehasonlítás sorrendjétıl függetlenül ugyanaz, akkor szimmetrikus adatállományról beszélünk, míg ha a különbözıség függ a sorrendtıl, akkor aszimmetrikus adatokról van szó.
2012. 03. 21.
45
Az MDS elemzések néhány általános vonása az SPSS-ben 3. Szimmetrikus adatállomány esetén elegendı a mátrix
fıátlója alatti adatokat bevinni, mivel a mátrix másik fele - éppen a szimmetria miatt - a fıátlója alatti rész tükörképe lenne. Aszimmetrikus adatállomány esetén viszont a teljes mátrixra szükség van (pl a személynek a-ról az esetek 95%-ában eszébe jut b, de b-rıl csak az esetek 65%-ában jut eszébe a). Egy fentiektıl független tulajdonsága az alkalmazott algoritmusoknak, hogy bizonyos számú adat bármilyen típusú állományból hiányozhat, az eredményt - némi információ-veszteséggel - többnyire úgy is megkaphatjuk. 2012. 03. 21.
46
Az MDS elemzések néhány általános vonása az SPSS-ben 4. A feltételesség szempontjából az adatállomány lehet mátrix-feltételes vagy sor-feltételes. A legtöbb különbözıségi adat mátrix-feltételes, ami azt jelenti, hogy az adott mátrixban minden adat ugyanazon a skálán értelmezett. Ha az adatok soronként más típusú skálán értelmezettek, akkor az adatállomány sor-feltételes.
2012. 03. 21.
47
Példa: mőszaki pedagógiai kutatás 1. Hat valószínőségszámítási feladat számítógéppel támogatott megoldása során a feladatok érthetıségét meghatározó dimenziókat vizsgáltuk 17 fıiskolai hallgató bevonásával. A cél annak meghatározása volt, hogy milyen további összetevıi vannak a feladatok hallgatók által észlelt érthetıségnek. Módszer: vélemények kérése az egyes feladatok nehézségérıl – azok megoldása után - 5 fokozatú skálán, majd MDS. Az eredményeket jobban érthetı, és így hatékonyabb feladatok összeállításában kívántuk hasznosítani.
2012. 03. 21.
48
Példa: mőszaki pedagógiai kutatás 2. Derived Stimulus Configuration
„Averaged over matrices S-stress = 0,135”
Euclidean distance model ,8 erth2 ,6 erth4
,4 ,2 -,0
Dimension 2
Az illeszkedés még elfogadható 2 dimenzióban, meg lehet kísérelni az értelmezést. Ugyanakkor a kapott dimenziók hosszú elemzés után sem voltak értelmezhetık.
erth3
erth1
erth6
-,2 -,4 erth5
-,6 -2
2012. 03. 21.
-1
0
1
2
3
49
Dimension 1
Példa: mőszaki pedagógiai kutatás 3.
Dimension 2
Figyelembe véve, hogy a kapott tengelyek rotálhatók és eltolhatók, más tengelyek felvételét is meg kellett vizsgálni. Ennek érdekében sokoldalúan elemeztük az egyes feladatok jellegzetességeit.
Derived Stimulus Configuration Euclidean distance model ,8 erth2 ,6 erth4
,4 ,2 -,0
erth3
-,4 erth5
-,6 -2
2012. 03. 21.
erth1
erth6
-,2
-1
Dimension 1
0
1
2
3
50
Példa: mőszaki pedagógiai kutatás 4. A feladatok a konkrét-absztrakt kontextus dimenzió mentén a következıképpen voltak sorbarendezhetık: 1. 5. 6. 4. 3. 2. (A konkrét kontextusra példa az érme-dobás vagy kocka-dobás helyzete, az absztrakt kontextusra a végtelen értéket felvehetı valószínőségi változók megfelelı kezelésének szükségessége). A feladatok az egyszerő-összetett fogalmi háttér dimenzió mentén a következıképpen voltak sorbarendezhetık: 1. 2. 4. 6. 5. 3. (A egyszerő fogalmi háttérre példa az érme-dobás vagy kocka-dobás lehetséges kimeneteleinek számbavétele, az összetett fogalmi háttérre pedig a különbözı bonyolultabb eloszlásfüggvények megszerkesztésének szükségessége).
2012. 03. 21.
51
Példa: mőszaki pedagógiai kutatás 5. konkrét-absztrakt kontextus: 1. 5. 6. 4. 3. 2. egyszerő-összetett fogalmi háttér: 1. 2. 4. 6. 5. 3. Derived Stimulus Configuration Euclidean distance model ,8 erth2 ,6 erth4
,4 ,2
Dimension 2
-,0
erth3
erth1
erth6
-,2 -,4 erth5
-,6 -2
-1
0
1
2
3
2012. 03. 21.
52
Dimension 1
Példa: mőszaki pedagógiai kutatás 6. konkrét-absztrakt kontextus: 1. 5. 6. 4. 3. 2. háttér: 1. 2. 4. 6. 5. 3. egyszerő-összetett fogalmi Derived Stimulus Configuration
Euclidean distance model
"konkrét-absztrakt,8 kontextus" ,6 ,4
2
2
-,0
Dimension 2
erth4
1
3
,2
6
4
erth3
4 erth1
erth6
-,2
6
3
-,4 -,6 -2
2012. 03. 21.
"egyszerő-összetett fogalmi háttér"
erth2
5
-1
Dimension 1
5
erth5 0
1
1
2
3
53
Példa: piackutatás 1. Egy közvéleménykutató cég megbízásából öt nıi lap kedveltségét meghatározó dimenziókat vizsgáltuk 35 válaszadó bevonásával. A cél annak meghatározása volt, hogy milyen milyen a vizsgált lapok megítélése az olvasók által „használt” dimenziók mentén. Módszer: (egyebek között) vélemények kérése az egyes lapok kedveltségérıl 5 fokozatú skálán, majd MDS. Az eredményeket esetleges új lapok indításában, illetıleg a meglévık arculatának szükség szerinti módosításában kívánták hasznosítani.
2012. 03. 21.
54
Példa: piackutatás 2. Az öt vizsgált nıi lap elhelyezkedése az MDS elemzéssel azonosított és értelmezett három dimenzió mentén
Nıi lap
Meglepetés Cosmopolitan Tina Kiskegyed Nık lapja
1.
2.
3.
Dim. Érdekes, menı
Dim. Valós problémák
Dim. - Hitelesség
-0,0352 1,6038 -1,5534 -0,0900 0,0748
-1,6714 -0,0318 0,0288 0,2036 1,4708
-0,4713 0,0462 -0,3058 1,8512 -1,1203
2012. 03. 21.
55
Példa: piackutatás 3. Az öt vizsgált nıi lap elhelyezkedése az MDS elemzéssel azonosított és értelmezett három dimenzió mentén A z ö t v iz s g á lt n ı i la p e g y m á s h o z v is z o n y í t o tt h e ly z e t e a z M D S e le m z é s a la p já n V a l ó s p r o b l é m á k
2012. 03. 21.
N ı k la p ja K is k e g y e d
C o s m o p o lita n
T in a
M e g le p e t é s Érd e
ke s ,
m en õ
H i t e le
ssé g
56
„Térképkészítés” A következı kísérletben megvizsgáljuk, hogy hogyan lehet adott Euklideszi-távolságmátrixhoz síkbeli pontreprezentációt elıállítani. Kiindulunk a magyarországi városok távolságmátrixából. Összesen 10 város egymástól vett km pontosságú távolságait helyeztük el Az alulról-háromszög alakú távolságmátrixban.
2012. 03. 21.
57
„Térképkészítés”
Az adatmátrixba beírjuk 10 magyar város egymástól légvonalban vett távolságait. Alulról háromszög távolságmátrixot kaptunk a szimmetrikusság miatt, továbbá egy város önmagától mindig 0 távolságra van.
2012. 03. 21.
58
„Térképkészítés”
Elindítjuk az MDS programot…
2012. 03. 21.
59
Megadjuk, hogy az adatok „Térképkészítés” távolságokat reprezentálnak
(nem pl. hasonlósági mérıszámok), és az adatok háromszög-mátrixban vannak.
2012. 03. 21.
60
„Térképkészítés” Megadjuk, hogy az adatok arány skálájúak, és azt, hogy síkbeli, azaz 2-dimenziós reprezentációt kérünk
2012. 03. 21.
61
„Térképkészítés” Kis stress-értékeket
A városonkénti torzulások is kicsik!
kaptunk, tehát jó lett a reprezentáció
Proxscal
Stress and Fit Measures
Decomposition of Normalized Raw Stress
Object
Mean
Szombathely Gyır Pécs Székesfehérvár Budapest Szeged Miskolc Békéscsaba Debrecen Nyíregyháza
Source SRC_1 ,0012 ,0005 ,0007 ,0001 ,0001 ,0003 ,0002 ,0001 ,0000 ,0001 ,0003
Mean ,0012 ,0005 ,0007 ,0001 ,0001 ,0003 ,0002 ,0001 ,0000 ,0001 ,0003
Normalized Raw Stress Stress-I Stress-II S-Stress Dispersion Accounted For (D.A.F.) Tucker's Coefficient of Congruence
,99967 ,99983
PROXSCAL minimizes Normalized Raw Stress. a. Optimal scaling factor = 1,000. b. Optimal scaling factor = ,999.
Final Coordinates Dimension
2012. 03. 21.
,00033 ,01828a ,04546a ,00083b
Szombathely Gyır Pécs Székesfehérvár Budapest Szeged Miskolc Békéscsaba Debrecen Nyíregyháza
1 -,977 -,606 -,547 -,386 -,135 ,138 ,490 ,496 ,738 ,789
2 ,256 ,297 -,507 ,015 ,136 -,522 ,371 -,358 ,053 ,260
A városok koordinátái az elkészült térképen
62
„Térképkészítés” A városok elhelyezkedése a kiszámított koordináták szerint…
2012. 03. 21.
63
„Térképkészítés” A következı futtatásnál csökkentett információból indulunk ki. A távolságok helyett csak a rangszámokat tároljuk a mátrixban. Pl. a Budapest Szombathely relációban olvasható 23 azt jelenti, hogy a 45 távolság adat között között ez a távolság a 23.
2012. 03. 21.
64
„Térképkészítés”
A nyíregyháza Debrecen a legkisebb távolság (1-es rangszámot kap) és Nyíregyháza Szombathely a két legtávolabbi város (relációjuk kapja a 45-öt)
2012. 03. 21.
65
„Térképkészítés” Most az adatok nem távolságokat, hanem rangszámokat jelentenek
2012. 03. 21.
66
„Térképkészítés” Az adatok szintje most csak ordinális
2012. 03. 21.
67
„Térképkészítés” Stress and Fit Measures Normalized Raw Stress Stress-I Stress-II S-Stress Dispersion Accounted For (D.A.F.) Tucker's Coefficient of Congruence
,00020 ,01407a ,02949a ,00027a ,99980
Annak ellenére, hogy kevesebb információnk volt a városokról, a reprezentáció elég jó lett
,99990
PROXSCAL minimizes Normalized Raw Stress. a. Optimal scaling factor = 1,000.
Final Coordinates
Szombathely Gyır Pécs Székesfehérvár Budapest Szeged Miskolc Békéscsaba Debrecen Nyíregyháza
Dimension 1 2 -,696 ,397 -,681 -,025 -,736 ,146 -,470 -,157 -,035 -,203 -,273 -,280 ,811 -,038 ,407 -,251 ,845 ,123 ,829 ,288
2012. 03. 21.
68