Régészeti mintákon végzett neutronaktivációs analízis eredményeinek sokváltozós statisztikai feldolgozása SZAKDOLGOZAT
NÉMETH VIKTÓRIA
Matematika BSc Matematika tanári szakirány
Témavezető: Balázs László, egyetemi adjunktus ELTE TTK, Geofizikai és Űrtudományi Tanszék
Eötvös Loránd Tudományegyetem Budapest, 2012.
Mindenekelőtt köszönöm szépen a konzulensemnek, Balázs Lászlónak az útmutatást, a kitartó segítségét, és azt a sok időt, amit rám szánt! Köszönöm szépen ifj. Csom Gyulának a programozásban nyújtott temérdek segítségét, a rengeteg türelmét és sok jó tanácsát! Végül, de nem utolsó sorban köszönöm szépen Balla Mártának, hogy rendelkezésemre bocsátotta a régészeti adatokat!
2
Tartalom 1. Bevezetés ........................................................................................................ 4 2. Módszertan ..................................................................................................... 6 2.1 Valószínűségi modell .............................................................................. 6 2.1.1 Az n-dimenziós eloszlásról általában............................................. 6 2.1.2 A többdimenziós normális eloszlásról általában ........................... 7 2.1.3 A normális eloszlás paramétereinek becslése ................................ 8 2.2 Főkomponens-analízis............................................................................. 9 2.2.1 Bartlett-próba ............................................................................... 10 2.3 Klaszteranalízis ...................................................................................... 10 2.3.1 Metrikák ....................................................................................... 12 2.4 Programok .............................................................................................. 15 3. Vizsgálat ....................................................................................................... 15 3.1 Főkomponens-analízis ........................................................................... 16 3.2 Klaszteranalízis ...................................................................................... 19 3.3 Kezdeti csoportok meghatározása.......................................................... 19 3.4 Kezdeti csoportosítás ellenőrzése .......................................................... 23 4. Összegzés ..................................................................................................... 27 4.1 Eredmények ............................................................................................ 27 4.2 Értékelés ................................................................................................. 27 5. Irodalomjegyzék ........................................................................................... 28 Függelék ............................................................................................................ 29
3
1. Bevezetés A szakdolgozatomban megfogalmazott feladat fizikai, matematikai módszerek alkalmazását igényli, témája a történelemtudománnyal is kapcsolatos kutatást szolgálja. A téma választását az indokolja, hogy a matematika mellett a másik általam választott szak a történelem. A feladatot ezért érdekesnek és egyedinek találtam. Soha nem foglalkoztam még ezelőtt ilyesmivel, viszont nagyon tetszik, úgyhogy szeretnék még a jövőben hasonlót csinálni. A feladat a régészek munkáját segíti az eredetmeghatározásban, a neutronaktivációs1 analitikai (NAA) módszerrel kapott mérési eredmények matematikai statisztikát, klaszteranalízist és főkomponens-analízist használó feldolgozásaival.
A régészeti minták adatai, amelyeken a számolásokat végeztem, régészeti ásatásokon feltárt római kori cserépedények, úgynevezett terra sigillaták elemzési eredményei. A terra sigillata a régészetben a Római Birodalom bizonyos részein készült, fényes felületű vörös kerámiaedényekre használt összefoglaló kifejezés. Az elnevezést jelentésével ellentétben nemcsak domborműves, hanem díszítetlen edényekre is használják.[1]
1. ábra: Terra sigillata 1
neutronaktivációs analízis: Anyagösszetételt vizsgáló módszer, melynek során az (ismeretlen összetételű) mintát neutronokkal rövid ideig besugározzák, aminek hatására benne az atommagok egy része radioaktív izotóppá alakul, „aktiválódik”. A különféle kezdeti magok a neutron besugárzása miatt különféle, rájuk jellemző sugárzásokat bocsátanak ki. Ezután sugárzás detektorokkal vizsgálják a minta sugárzását, melyből következtethetnek a minta eredeti összetételére. Erre az atomreaktornál kisebb neutronhozamú (akár hordozható) neutrongenerátorok is alkalmasak. Dolgozatomnak nem célja a neutronaktivációs módszer vizsgálata, csupán a módszer eredményeinek feldolgozása.
4
Az edénydarabok a Budapest Vízivárosi, a Medve utcai, illetve Ganz utcai ásatásokból származnak. Koruk az i.sz. 1-2. századra tehető. Az edény vizsgálatához az edény belső részéből vesznek egy nagyon kis mintát (milligramm nagyságrendű darabot) úgy, hogy a lelet minél kevésbé roncsolódjon. Sok esetben kiderül, hogy a hasonló edények nem ugyanott készültek (esetleg másolatok). Ezt a régész formai jegyek alapján nem feltétlenül láthatja, azonban a mérés útján kapott eredmények matematikai módszerekkel történő kiértékelésével eldönthető az eredet. Először a régészetileg feltárt cserépedények (jelen esetben 80 darab mintáról van szó) nyomelemeit és azok koncentrációját a kutatók neutronaktivációs analitikai módszerrel meghatározzák. A 80 mintára így kapott 14 fajta nyomelem (cérium, kobalt, króm, cézium, vas, háfnium, lantán, lutécium, rubídium, szkandium, szamárium, tórium, itterbium, cink) koncentrációit kaptam meg feldolgozásra és kiértékelésre. Így minden minta egy-egy 14 elemű vektorral jellemezhető. Az így nyert 80 darab 14 dimenziós valószínűségi változók valószínűleg normális eloszlásúak.[11] Megítélésem szerint ezt a feltételezést, illetve annak alkalmazási feltételeit indokolt megvizsgálni (erre a jelen munkámban az idő rövidségére való tekintettel nem volt lehetőségem). Megkaptam nyomelemenként a mérési eredmények becsült szórásait is. A mintákon főkomponens-analízist hajtottam végre, így a dimenziószám csökkenthetővé vált. A mintákat klaszterezési eljárásokkal csoportosítottam, illetve kiszűrtem a kiugró értékeket, majd ezeket a csoportokat tovább vizsgáltam, egészen addig, amíg nem kaptam egy megbízható csoportosítást. Az egy csoportba került minták valószínűleg egy műhelyből származhatnak. Egy műhelynek jellegzetes a nyomelem-koncentráció mintája (feltehetően azért, mert azonos alapanyagot használnak). Egy-egy műhely más kovarianciamátrixszal és várható értékkel jellemezhető. Feladatom tehát annak meghatározása, hogy valószínűleg mely minták származnak egy műhelyből és feltehetően hány műhely van, megtalálni az elkülöníthető csoportokat és a kiszóró mintákat. Egy adott műhelyt jellemezhet egy adott nyomelem-összetétel, ez összefügghet az adott műhelyre jellemző technológiával, anyaghasználattal. Ez segíthet annak eldöntésében, hogy mely minták származhatnak egy műhelyből. Adott esetben az elemek arányai megmaradnak, de a vegyületek megváltozhatnak bizonyos kémiai változások során, mint például az agyag kiégetésekor. Ha elkészült a csoportosítás és definiáltuk a csoportok statisztikai jellemzőit, akkor eldönthetjük, hogy az újonnan talált minták ebbe a csoportba tartoznak e. Ha ezek nyomelemkoncentrációi hasonlóak a csoportra jellemző koncentrációkhoz, akkor feltehetjük, hogy
5
ugyanabból a műhelyből származnak. Az adatokból esetleg információkat nyerhetünk az akkor élt emberek migrációs és kereskedelmi szokásairól is.
2. Módszertan 2.1 Valószínűségi modell Ha elvégzem a csoportosításokat, akkor a csoportok jellemezhetőek a centrummal és kovarianciamátrixszal. A csoport centrumának becslése a csoporton belüli minták nyomelemenkénti átlaga. A csoporthoz tartozást jellemez egy metrika, amit a centrum és a kovarianciamátrix határoz meg, de ahhoz, hogy megállapítsam a klasztereket (csoportokat), ismerni kell a metrikát, ezért nehéz a probléma. Mivel 80 darab 14 dimenziós vektort kaptam, amelyek a valószínűségi változók reprezentációja, ebből következően többdimenziós eloszlással kell dolgoznom. Megnehezíti a több változó kezelését, hogy legfeljebb 3 dimenziót (vagyis 3 változót) látunk könnyedén. Számításaim során az empirikus szórásnégyzet helyett a korrigált empirikus szórásnégyzettel számolok (például a kovarianciamátrixot), mert tapasztalati eloszlással dolgozom. Vagyis:
= ∑ − ̅
helyett
(1)
∗ = ∑ − ̅ = ,
ahol -k maguk a minták, ̅ ezeknek az átlaga és N a minták száma.
(2)
2.1.1 Az n-dimenziós eloszlásokról általában
Az , … , valószínűségi változó együttes eloszlásfüggvénye az , , … = ≤ , … , ≤ .
(3)
Az eloszlásfüggvény az , … , változók monoton nem csökkenő függvénye és
+∞, … , +∞ = 1,
(4)
x , … , −∞, … , x = −∞, … , x , … , x = x , … , x , … , −∞ = 0. illetve
(5)
Az n-dimenziós folytonos eloszlás sűrűségfüggvénye pedig , , … , = "
!
# …"
.
Az , , … , sűrűségfüggvényű többdimenziós eloszlás várható értéke: 6
(6)
E[ , , … ] = $( x fx , x , … , x dx
(7)
(ez a vektorváltozó első momentuma), ahol Tn a teljes n-dimenziós tér.[Fegyverneki]
egy-egy mátrixban foglalhatjuk össze. Legyen , , … , n valószínűségi változó. Azt a Több valószínűségi változó esetén a páronkénti kovarianciákat és korrelációs együtthatókat
C mátrixot, amelynek i-edik sorának j-edik eleme a )*+, , - . kovariancia, a valószínűségi
változók kovarianciamátrixának nevezzük. Hasonlóan definiáljuk az R korrelációmátrixot a páronkénti korrelációs együtthatókkal. Mivel bármely valószínűségi változónak önmagával C és R pozitív szemidefinit mátrix, és közöttük a / = 0 ∙ 2 ∙ 0 kapcsolat áll fenn, ahol ∙ a
vett korrelációs együtthatója 1, az R mátrix főátlója csupa egyesből áll.
közönséges mátrixszorzást jelöli, és
0 = 3456,7 , 7 , … , 7 .
(8)
egy olyan diagonális mátrix, amely a szórásokból áll. (Egy mátrix pozitív szemidefinit volta azt jelenti, hogy a mátrix ( alakú valamilyen X mátrixra, amelynek transzponáltja ( .
Pozitív szemidefinit mátrix sajátértékei nemnegatívak.) [Petz, 2000]
Az egy csoporthoz tartozó régészeti minták nyomelem-koncentráció vektora feltételezésünk szerint normális eloszlást követ[11], szakdolgozatomban tehát többdimenziós normális eloszlásokkal fogok dolgozni.
2.1.2 A többdimenziós normális eloszlásról általában
Legyenek , , … , valószínűségi változók függetlenek és standard normális eloszlásúak
, ~90,1 .. Ekkor definíció szerint[10] az : ( = , … , véletlen vektor n-dimenziós
standard normális eloszlású. Az általános m-dimenziós normális eloszlás ennek lineáris transzformációja.
Legyen A tetszőleges ; × = méretű mátrix, b pedig tetszőleges m-dimenziós vektor és U a
fentiek szerinti n-dimenziós standard normális eloszlás. Ekkor definíció szerint[10] az = >: + ?
(9)
véletlen vektort m-dimenziós normális eloszlásúnak nevezzük. Egy m-dimenziós normális eloszlású valószínűségi vektorváltozó koordinátáinak bármely lineáris kombinációja
egydimenziós normális eloszlású. Az állítás megfordítása is igaz, ha egy m-dimenziós eloszlás olyan, hogy koordinátáinak bármely lineáris kombinációja egydimenziós normális eloszlású, akkor az eloszlás m-dimenziós normális eloszlás a fenti értelemben (azaz előáll egy
7
n-dimenziós standard normális eloszlás lineáris kombinációjaként)
[7]
. Vagyis a két fajta
tulajdonság egymással ekvivalens.
Az X véletlen vektor várható értéke b, kovarianciamátrixa >>( = /. Az n-dimenziós @
várható értékű, C kovarianciájú normális eloszlás: 9 @, / .
Az n-dimenziós normális eloszlás sűrűségfüggvénye[Fegyverneki]: (
,. = 2B / |C|⁄ exp I− J − @K / J − @KL.
(10)
Legyen tehát ~9 J@, /K. Az n-dimeziós normális eloszlás sűrűségfüggvényének
szintvonalai ellipszisek, amelyek egyenlete az x függvényében a következő[Fegyverneki]: (
J − @K / J − @K = ) .
(11)
A csoportoknál a metrikát ez határozza meg normális eloszlás esetén.
Az ellipszisek középpontja µ, tengelyeik ±)NO P , ahol λi, ei a C-hez tartozó sajátérték -
sajátvektor pár, azaz teljesül, hogy /P = O P , 4 = 1,2, … , =.[Fegyverneki] A többváltozós normális eloszlású X véletlen vektorra igaz:
1. X elemeinek lineáris kombinációi normális eloszlásúak. 2. X elemeinek minden részhalmaza (többváltozós) normális eloszlású. 3. A nulla kovariancia arra utal, hogy a megfelelő összetevők független eloszlásúak (a függetlenség csak a normális eloszlás feltételezése mellett igaz). 4. A
többváltozós
összetevők
feltételes
eloszlásfüggvényei
(többváltozós)
normálisak.[Fegyverneki]
2.1.3 A normális eloszlás paramétereinek becslése , … , elemeket tartalmazó mintából.
Ha ismerjük az eloszlás típusát, viszont a paramétereit nem, akkor megbecsülhetjük ezeket az
Legyen , … , egy N méretű Nn(µ,C) eloszlásból vett véletlen minta, ahol N>n. Ekkor a A várható érték és a kovarianciamátrix becslése:
µ és a C maximum likelihood becslése[Fegyverneki]:
( R @ = Q = ∑ és / = ∑ − − .
(12)
(A maximum becslés alapján történő bizonyítása megtalálható Fegyverneki Sándor Valószínűség-számítás és matematikai statisztika című jegyzetében.) (A torzítatlanság biztosítása érdekében N-1-gyel kell osztani a szórásnégyzeteket és kovarianciákat.) 8
Maximum likelihood becslés: Például egy dimenziós normális eloszlás esetén az együttes sűrűségfüggvény:
S, T, 7 = ∏ VS , T, 7 =
√XY
P
# ∑ \ ^ Z Z[Z ]_# ]
,
(13)
ahol 7 a szórás, T a várható érték. Tehát az ismeretlen T és 7 függvényében keressük
S, T, 7 függvény maximumát (feltételes valószínűség). A likelihood függvény logaritmusa: `S, T, 7 = ln ) − = ln 7 − YZ ∑ S − T .
(14)
A szélsőérték létezésének szükséges feltétele alapján c
^
=
YZ
illetve c
Y
∑ S − T = 0,
(15)
= −= + YZ ∑ S − T = 0,
(16)
ahol 7 ≠ 0. Tehát az ismeretlen paraméterek becslésére az alábbi összefüggések adódnak:
∑ \] TR = ]_# és 7f =
∑ g ∑]_#I\] ]_# ] L
Z
.
(17)
Tehát a hagyományos becslési eljárás normális eloszlás esetén a várható értéket a számtani középpel, a szórásnégyzetet a tapasztalati (empirikus) szórásnégyzettel becsüli.[Závoti]
2.2 Főkomponens-analízis A PCA (Principal Component Analysis, vagyis Főkomponens-analízis) egy statisztikai módszer, a modern adatelemzés egyik gyakran használt eszköze. Biztosítja, hogy koordinátákat úgy válasszunk ki, hogy lényeges információvesztés ne történjen az egyszerűsítés során.[Jolliffe, 2002] A főkomponensek maghatározásához az eredeti változókat új, korrelálatlan változókba (főkomponensekbe) transzformáljuk egy lineáris transzformációval. Az egymás után következő komponensek a teljes variancia egyre kisebb hányadát magyarázzák. Közülük kevesebbet tartunk meg, mint a változók eredeti száma, általában az első néhányat.[2] Az első főkomponenst úgy kapjuk, hogy megkeressük azt a lineáris kombinációt, amelynek a szórása maximális. Tehát: az adatok által meghatározott pontfelhőt arra az egyenesre vetítjük le, ahol a kapott pontok szóródása a legnagyobb lesz. Ezután az erre az egyenesre merőleges irányok mentén tovább lépve egymás után meghatározzuk a további főkomponenseket. Annyi főkomponens lehet, ahány változó van, és a főkomponensek egymásra merőlegesek. Kiindulhatunk a kovariancia és a korrelációs mátrixból. Esetünkben a korrelációs mátrixból 9
kell kiindulni, hiszen a változóink eltérő skálán mértek és ezt akarjuk kiküszöbölni. Általában nincs szükség az összes komponensre, hiszen az első néhány főkomponens segítségével írjuk le, illetve helyettesítjük az eredeti adatállományt. A kumulált sajátérték rátával megmérhetjük, hogy mennyi információ őrződik meg ezen helyettesítés után.[3] Esetünkben a dimenziót 14ről 5-re csökkentettem. Ekkor a teljes szórásnégyzet csupán 17,2%-át tartalmazza a 9 elhagyott főkomponens. Tehát az adatokat úgy adjuk vissza kevesebb dimenzióban, hogy új, nem korrelált változók keletkeznek. Ez azért is fontos, hiszen az ember csoportfelismerő képessége számára N>3 dimenziós adatkészlet felfoghatatlan, míg 1, 2 vagy 3 dimenzióban az emberi agy csoportfelismerő képessége nagyon jó, könnyen észrevehetőek a kapcsolatok, hasonlóságok. A főkomponenseket úgy tekinthetjük, mint egy új (derékszögű) koordináta-rendszer tengelyeit, értékeiket pedig az eredeti adatmátrixban lévő oszlopvektor elemeinek vetítéseit ezekre a tengelyekre.[Horvai, 2001]
2.2.1 Bartlett-próba A főkomponens-analízis igénye leggyakrabban abban az esetben merül fel, ha a megfigyelt változók között erős korrelációt észlelünk. Túlzott óvatosságnak tűnik, mégis érdemes elvégezni az R mátrix elemeinek szignifikancia-vizsgálatát. A Bartlett-féle gömbölyűségA nullhipotézis az, hogy a megfigyelt változók korrelációmátrixa egységmátrix 2 = h (azaz a
próbát használhatjuk a szignifikancia ellenőrzésére.
változók páronként korrelálatlanok).
A próba elnevezése onnan ered, hogy a standardizált korrelálatlan változók pontfelhő kiterjedése a térben nagyjából irányfüggetlen.
A i eloszlást követő valószínűségi változó definíciója (a próba kritériuma): i = − j= − k 2l + 11 m n=|2|,
ahol |2| a korrelációs mátrix determinánsa és a vizsgálat szabadsági foka:
oo
(18)
.
Ha a hipotézist elvetjük, tehát i abszolút értéke nagyobb, mint az elméleti i , akkor az eredeti változóinkat korreláltaknak tekintjük.[Füstös, 2009]
2.3 Klaszteranalízis A klaszter hasonló elemek csoportját jelenti. A nem hasonló elemek más-más klaszterbe kerülnek. A klaszterelemzés, klaszteranalízis az elemek klaszterekbe sorolásának, 10
csoportosításának folyamata, eljárások sorozatából áll. Akkor sikeres az elemzés, ha eredményül a klaszterek struktúrája világosan kirajzolódik. A klaszterezés felügyelet nélküli osztályozást (unsupervised) jelent, melyben nincsenek előre definiált osztályok.[Obádovics, 2009] Korlátja azonban, hogy nincs egyetlen legjobb megoldás. A klaszterek kialakulása a választott eljárásoktól, távolságszámítási módszerektől, valamint az elemzésbe bevont változóktól függ. Releváns változók bevonása vagy törlése alapvetően befolyásolja az eredményeket. [Obádovics,2009]
Legyen p = ? , ? , … , ? a tulajdonságtér elemeiből álló, a klaszterező eljáráshoz
tulajdonságtér n számú m dimenziós pontból áll. Ezt a teret egy = × ;-es mátrixszal írhatjuk
alkalmazott n elemű adathalmaz. Ha m tulajdonságot mérünk n objektumon, akkor a ? ? p = q? - r = s ⋮ ?
le:
? … ?t ? … ?t w, ⋮ ⋱ ⋮ ? … ? t
(19)
ahol 4 = 1,2, … , = és x = 1,2, … , ;.[Obádovics, 2009] Esetünkben a mátrix minden sora egy mintát
jelöl, és minden oszlopa egy nyomelem koncentrációját. Tehát p - jelöli az i-edik minta j-edik
nyomelemének koncentrációját. [Obádovics, 2009]
A klaszteranalízis fő célja tehát általában véve az, hogy a vizsgált objektumokat csoportokba rendezze, az objektumok jellemzői alapján. A technikának többféle változata ismert, az egyik legelterjedtebb az úgynevezett összevonó, hierarchikus klaszterezés. A hierarchikus módszerek a klasztereket hierarchiába rendezik és az eredményt általában egy fa-szerű diagrammal reprezentálják, amit dendrogramnak hívnak.[MVSP] A dendrogram két dimenziós diagram, az x tengelyen a minták, illetve csoportok távolsága, az y tengelyen pedig a minták összetartozása látható. Az összevonó módszerben az eljárás lépésekben csökkenti a csoportom számát úgy, hogy induláskor minden elemet külön csoportnak tekint, és az egyes lépésekben azt a két objektumot vonja össze, amelyek a legközelebb vannak egymáshoz. Ezeket az algoritmusokat tehát összevonó csoportelemzési módszernek hívjuk.[Horvai,2001] Az összevonó hierarchikus klaszterezés menete a következő: 1. Az első lépésben kiszámításra kerül az egyes objektumpárok hasonlósága (vagy távolsága), és a számítás eredményeit egy mátrixban helyezzük el. (Fontos, hogy többfajta hasonlóság és távolság metrika is van, amely használható, ideértve az egyes objektumok közötti távolságokat és a klaszterek közöttieket is).
11
2. A második lépésben megkeressük a mátrix alapján a két leghasonlóbb objektumot (vagy amelyeknek legkisebb a távolsága) és ezeket összevonjuk egy új klaszterbe. 3. Az újonnan formált klaszter mostantól egyetlen objektumnak tekinthető. Ennek megfelelően a hasonlósági (vagy távolság-) mátrixot újra kell kalkulálni, úgy, hogy az eredeti két objektum helyett ezt az új klasztert kell alapul venni a számításoknál. 4. A 2. és 3. lépést addig folytatjuk, amíg az összes objektum be nem kerül egyetlen csoportba. Az eredményül kapott dendrogramban a hierarchia a leginkább érdekes, az objektumok sorrendje kevésbé. A vertikális vonalak száma, ami két objektumot összekapcsol, jellemzi, hogy mennyire hasonlóak – minél kevesebb a vonalak száma annál közelebb esik egymáshoz a két objektum.[MVSP] (ld. Függelék 17-20. ábrák)
2.3.1 Metrikák A távolságok definiálásának alapvető jelentősége van a csoportosításoknál. A csoportosítási eljárások során vehetjük két csoport távolságát, két pont távolságát és egy csoport és egy pont távolságát. A csoport és pont távolságát vehetjük két pont távolságának is, mivel egy pontnak a csoport centrumától való távolságát nézzük (ez végülis két pont távolsága). A csoportosítást megelőzően meg kell vizsgálni a nyomelem-koncentrációkat, ezek láthatóan igencsak eltérő intervallumokban mozognak. Ez utóbbi miatt a nyers méréseken sima euklideszi távolság nem alkalmazható, standardizálni kell valamilyen módon, illetve változtatni a skálákon, hogy hasonló intervallumban mozogjanak. Az MVSP (MultiVariate Statistical Package) programot használtam, ebben van egy bizonyos „Standardized Euclidean distance”, ami a teljes mintaszórással standardizál. Ez jobb közelítést ad ugyan, mint a sima Euklideszi távolság, azonban ez felerősítheti a véletlen komponenseket. Akkor működne jól, ha minden minta egy műhelyből származna. Azonban ez nem áll fenn. Jó közelítést adott volna, ha a mérési hibák szórásaival standardizálok, azonban én más utat választottam. Több megközelítés is lehetséges. Pontok közötti távolságok: Az M-dimenziós térben a pontok egymáshoz való helyzetét távolságukkal jellemezhetjük. Dolgozatomban kétféle távolságot fogok alkalmazni. i.
Euklideszi távolság Két n dimenziós véletlen vektor (x, y) Euklideszi távolsága a megszokott módon: 12
3, S = N∑ − S ,
(20)
ahol és S az egyes vektorok koordinátáit jelöli.[4]
A fenti távolság mátrixszorzással, a következő formában is felírható:
3, , - . = y, ,t − -,t . , ,t − -,t .. (
(21)
A kezdeti csoportokat euklideszi távolsággal határoztam meg. ii.
Mahalanobis távolság A Mahalanobis távolságot akkor használjuk, ha az adatok korreláltak és ennek hatását akarjuk kiküszöbölni. A távolság definíció szerint tehát:
3, S = N − S ( / − S ,
(22)
ahol C az adott n dimenziós valószínűségi eloszlás kovarianciamátrixa.[McLachlan,1999]
(Ha C nem invertálható, akkor nem lehet alkalmazni.) A Mahalanobis-távolságot nem két pont közötti távolság kiszámítására fogom alkalmazni, hanem adott pont csoporttól való távolságára. Ha
többdimenziós
normális
eloszlást
használok,
akkor
ez
a
távolság
a
legmegfelelőbb.[3] Klaszterek közötti távolságok: A klaszterek közötti távolságmérésre négy féle módszert alkalmaztam, ezek alapján készítettem a dendrogramokat (ld. Függelék), amiket aztán összevetettem és meghatároztam a kezdeti csoportokat. i.
Unweighted Pair-Group Method (UPGMA) Az UPGMA módszer a két klaszter távolságát a pontok páronkénti távolságainak átlagával számolja. Az átlag súlyozatlan, ami annyit tesz, hogy a pontokat egyenlő aránnyal veszi figyelembe[5]: 3z, { =
| }
} | ∑ ∑- 34{~, , - .,
(23)
ahol , , … , | , illetve , , … , } az r, illetve s klaszterekbe tartozó vektorokat jelöli.
ii.
Weighted Pair-Group Method (WPGMA) A WPGMA az UPGMA távolság súlyozott változata, nem a pontokat, hanem a klasztereket veszi egyenlő súllyal[6][Ormándi]:
3z, { =
o, ,
,
(24) 13
amennyiben az r klaszter úgy állt elő, hogy a p és q klasztereket összevontuk. iii.
Centroid A Centroid módszer a két klaszter távolságát a klaszter középpontok távolságával számolja[8]:
3z, { = − ,
ahol az átlag súlyozatlan, ami annyit tesz, hogy az adott klaszter középpontja: =
iv.
|
| ∑ ,
ahol = az r klaszter elemszámát jelöli, ahogy fent az UPGMA esetén is.
(25)
(26)
Median
A Median módszernél a csoportok középpontját az eltérések abszolút értéke alapján (L1 norma) számítjuk[9]: 3z, { = − ,
(27)
ahol az az adott klaszter súlyozott középpontja. Azaz, ha az r klaszter a p és q klaszterek összefűzésével jött létre, akkor a klaszter súlyozott közepe:
= ,o + ..
(28)
Az alábbi táblázatban látható a négy átlagos láncmódszer neve, ahogyan MVSP-ben használják, és az osztályozás.[MVSP] Páronkénti távolságok átlaga
Centroid
Súlyozatlan
UPGMA
Centroid
Súlyozott
WPGMA
Median
Az alábbi, centroid nevű példa alapján, a bal oldali csoport centroidjának koordinátái: 1.5 (0.5, 2.0 és 2.0 átlaga) az X tengelyen, 2.4 ( 3.5, 2.0 és 1.7 átlaga) az Y tengelyen.[MVSP]
5. ábra: Klaszterek közötti távolságok
14
Jelölések: adatpontok centroidok az új klaszter súlyozott átlaga az új klaszter súlyozatlan átlaga
2.4 Programok A számolásokhoz alapvetően két programot használtam. •
MVSP A klaszterezési eljárásokat a MultiVariate Statistical Package (MVSP) nevű program 3.21-es verziójával készítettem. Viszonylag egyszerű a használata, az adatok beimportálása után elvégzi a csoportosítást és dendrogramot készít. Ezzel a programmal végeztem a klaszteranalízist, készítettem el a dendrogramokat, amiket aztán összevetettem.
•
R program Ez egy programozási nyelv statisztikai számításokhoz és ábrázoláshoz. Népszerű a hasonló programok között, mert ingyenesen letölthető és egyszerűbbnek számít, emiatt sok információt lehet róla találni az Interneten. Nekem a használata jóval bonyolultabb volt, mint az MVSP programé (lévén, hogy korábban sosem programoztam), viszont jóval többet is tud. Ezzel a programmal végeztem a számításokat, például a csoportok kovarianciamátrixának kiszámítását, illetve Mahalanobis távolságot is ezzel számoltam.
3. Vizsgálat Először egy kezdeti csoportosítást hoztam létre, felhasználva a fent említett módszereket. A már említett problémák miatt egy leegyszerűsített metrika segítségével. A sokváltozós adatok elemzése kétdimenziós ábrázolásukkal kezdődik, ezeken az ábrákon sokszor az objektumok alakzatokba (csoportokba) rendeződnek. Két-három dimenzióban az emberi szem felismeri a csoportokat, viszont több, jelen esetünkben 14 dimenzióban ez nem működik. A távolságok számításával párhuzamosan az algoritmusok elkezdik a dendrogramok készítését. Ezeket a dendrogramokat vetettem össze a csoportok elkészítéséhez. 15
A vizsgált minták, illetve a hozzájuk tartozó mérési eredmények szórásai megtalálhatóak a Függelékben.
3.1 Főkomponens-analízis Mindenekelőtt tehát elvégeztem az R mátrix elemeinek szignifikancia-vizsgálatát. A Bartlettféle gömbölyűség-próbát használtam a szignifikancia ellenőrzésére. Az adott mintákra a (18) képlet: a szabadsági fok
= 91, illetve
i = − j80 − 2 ∙ 14 + 11 m n=|3,507142 ∙ 10k | = 923,2121, k
(29)
ez pedig jóval több, mint a 90 szabadságfokhoz tartozó értékek (f=0,999-nél is 137,2 a kritikus érték). Tehát a változók korreláltak, vagyis végezhetek dimenziócsökkentést. Az eredeti 14 változó által kifeszített teret a főkomponens-analízis segítségével (ami
matematikailag egy főtengely-transzformáció) alacsonyabb dimenziójú térbe vetítjük az eredeti adatrendszer oszlopai közötti korreláció felhasználásával, remélve, hogy ily módon könnyebben értelmezhető csoportosulásokat fedezünk fel. A standardizált változók becsült korrelációs mátrixa (ebből jönnek ki a főkomponensek): 1 -0,10
0,09
0,33 -0,02
-0,10
1
0,42 -0,29
0,09
0,42
1 -0,46
0,33 -0,29 -0,46 -0,02
0,03
0,91
0,55
0,23
0,45
0,85
0,50
0,57 -0,05
0,03 -0,07 -0,08
0,14 -0,35
0,36 -0,18 -0,35
0,10
0,34
0,10 -0,01
0,10
0,32 -0,52
0,71 -0,03 -0,47
0,20
0,37
0,33
0,03
1 -0,14
0,10 -0,14
0,73
0,25
1 -0,05 -0,01
0,88 -0,26
0,28
0,73
0,04 -0,17
0,16 -0,16
0,09
0,01 -0,05
0,06
0,09
0,73 -0,07 -0,01
0,25 -0,05
1
0,72
0,40
0,13
0,16
0,75
0,44
0,48 -0,03
0,91 -0,08
0,10
0,33 -0,01
0,72
1
0,52
0,24
0,40
0,94
0,50
0,55
0,55
0,32
0,03
0,16
0,40
0,52
1 -0,06
0,57
0,47
0,13
0,54 -0,11
0,88 -0,16
0,13
0,24 -0,06
1 -0,37
0,22
0,72 -0,06 -0,20
0,09
0,14
0,23 -0,35 -0,52 0,45
0,36
0,71 -0,26
0,16
0,40
0,57 -0,37
0,85 -0,18 -0,03
0,28
0,01
0,75
0,94
0,47
0,22
0,21
1
0,60
0,58 -0,01
0,50 -0,35 -0,47
0,73 -0,05
0,44
0,50
0,13
0,72 -0,36
0,60
1
0,25 -0,16
0,57
0,10
0,20
0,04
0,48
0,55
0,54 -0,06
0,58
0,25
1
0,04
-0,05
0,34
0,37 -0,17
0,12 -0,01 -0,16
0,04
1
0,06
0,09 -0,03
0,03 -0,11 -0,20
16
1
0,44
0,21 -0,36
0,44
0,03
0,12
A főkomponenseket a maximum variancia kritérium alapján határozzuk meg úgy, hogy a hozzájuk tartozó sajátérték nagysága alapján rakjuk sorba. Minden rákövetkező főkomponens annak a varianciának a legnagyobb részét írja le, amelyet nem magyaráznak meg az előző főkomponensek. Ezek szerint az adatokban lévő variancia legnagyobb részét az első főkomponens hordozza. A másodikban több információ van, mint a harmadikban.
2. ábra: A kovarianciamátrix ábrázolva
A színek jelentése: kék: antikorrelált változók, ellentétesen változnak egymással a korrelációk, negatív korreláció zöld: kis értékek piros: nagyobbak, erősen korreláltak
3. ábra: A korrelációs mátrix sajátértékei
Ha a sajátértékek azonosak lennének, akkor korrelálatlanok lennének az elemek.
17
Az első 4 sajátvektor, melyek egyben a főkomponensek generálásához tartozó súlyok:
4. ábra: Az első négy sajátvektor
Például a 4-es főkomponenst döntően az 5. elem határozza meg. Azokat a súlyokat (a súlyok egyben a sajátvektorok koordinátái) mutatja meg, hogy melyiket kell venni és megszorozni az egyes mintákat.
18
Főkomponens-analízissel tehát 14-ről lecsökkentettem a dimenziót 5-re, így kaptam egy 5x80-as mátrixot.
3.2 Klaszteranalízis Az új, 5 dimenziós mátrixot vizsgáltam MVSP programban. A pontok között Euklideszi távolságot használva, a klaszterek között pedig a négy féle távolságmérő eljárást, amiket már fentebb említettem (UPGMA, WPGMA, Centroid, Median). Kaptam 4 dendrogramot (ld. Függelék), ezeket megvizsgáltam, összevetettem, és ezek alapján keletkezett 3 elkülöníthető csoport és 3 kiugró pont. A csoportok közül egynek csupán 4 eleme van, s mivel ez nagyon kevés, ezzel a csoporttal nem tudtam tovább dolgozni. Ennek a csoportnak az elemei a 29, 57, 75, 79 sorszámú minták. Tekintettel arra, hogy egymáshoz közel vannak a dendrogramon, a két nagyobb csoporttól viszont távol esnek, ezért a részletes vizsgálat nélkül elképzelhetőnek tartom, hogy ezek egy külön csoportot alkotnak. A kiugró értékek valószínűleg más-más műhelyben készültek, nem sorolhatóak egyik csoportba sem. A kiugró értékek az 5, 47, 63 sorszámú minták.
3.3 Kezdeti csoportok meghatározása A keletkezett két nagyobb csoporttal tovább tudtam számolni. Először mindkét csoportnak meghatároztam a csoportot jellemző centrumát és becsült kovarianciamátrixát. A két nagyobb csoport, az őket jellemző centrum és a becsült kovarianciamátrix tehát a következő: 1. csoport Ezek elemei a dendrogramok alapján a 2, 4, 6, 12, 17, 19, 22, 25, 26, 28, 30, 32, 33, 35, 37, 39, 40, 42, 50, 52, 55, 56, 59, 61, 67 sorszámú minták. Ez 25 db minta, ennek a csoportnak állapítottam meg a centrumát. A centrumot úgy számoltam ki, hogy vettem a csoportba kerülő mintákat és az egyes nyomelemek szerint kiszámoltam az átlagukat, így kaptam ezt a 14 elemű vektort. Ez a következő vektor lett:
19
az 1. csoport átlagvektora (centruma) 80,6 22,252 123,92 18,2104 5,2536 4,0612 37,856 0,4216 189,88 18,632 7,0096 12,288 3,1084 332,52
Az 1. csoport becsült kovarianciamátrixa: 73,07 -3,92 21,53 106,16 -3,08 1,82 12,73 0,16 245,11 7,71 0,04 2,48 0,11 -134,3
-3,92 2,54 1,87 -0,48 0,09 -0,05 -1,00 -0,01 -6,95 -0,02 -0,21 -0,44 -0,03 -31,67
21,53 1,87 69,66 71,20 -1,84 0,23 11,21 0,05 183,32 5,05 0,21 1,47 -0,17 273,21
106,16 -0,48 71,20 374,79 -8,99 3,27 42,11 0,16 656,09 16,13 0,29 0,05 -0,58 -467,3
-3,08 0,09 -1,84 -8,99 0,32 -0,11 -1,45 -0,01 -19,59 -0,41 -0,02 0,02 0,02 4,77
1,82 -0,05 0,23 3,27 -0,11 0,22 0,27 0,00 5,82 0,22 -0,02 0,03 -0,02 -13,73
12,73 -1,00 11,21 42,11 -1,45 0,27 11,23 0,02 110,09 1,91 0,70 0,15 -0,15 42,75
0,16 -0,01 0,05 0,16 -0,01 0,00 0,02 0,00 0,52 0,02 0,00 0,01 0,00 -0,77
245,11 -6,95 183,32 656,09 -19,59 5,82 110,09 0,52 1879,78 39,45 2,51 8,03 -0,55 95,52
7,71 -0,02 5,05 16,13 -0,41 0,22 1,91 0,02 39,45 1,24 -0,04 0,29 -0,02 4,27
0,04 -0,21 0,21 0,29 -0,02 -0,02 0,70 0,00 2,51 -0,04 0,12 0,03 -0,01 9,60
2,48 -0,44 1,47 0,05 0,02 0,03 0,15 0,01 8,03 0,29 0,03 0,37 0,02 12,86
0,11 -0,03 -0,17 -0,58 0,02 -0,02 -0,15 0,00 -0,55 -0,02 -0,01 0,02 0,04 -3,26
-134,28 -31,67 273,21 -467,29 4,77 -13,73 42,75 -0,77 95,52 4,27 9,60 12,86 -3,26 16743,76
2. csoport Ezek elemei a dendrogramok alapján a 0, 1, 3, 7, 8, 9, 10, 11, 13, 14, 15, 16, 18, 20, 21, 23, 24, 27, 31, 34, 36, 38, 41, 43, 44, 45, 46, 48, 49, 51, 53, 54, 58, 60, 62, 64, 65, 66, 68, 69, 70, 71, 72, 73, 74, 76, 77, 78 sorszámú minták. Ez 48 db minta, ennek a centruma: a 2. csoport átlagvektora (centruma) 101,6917 22,1354 130,9583 20,2104 4,8952 5,2498 48,8188 0,4806 179,1667 20,4042 8,5515 13,8604 3,5429 338,5833 20
A 2. csoport becsült kovarianciamátrixa: 60,42 1,23 28,68 -16,99 -1,05 2,50 26,76 0,00 -35,16 4,79 3,62 4,13 0,56 270,21
1,23 26,29 5,60 1,33 0,53 0,39 2,76 0,02 -4,22 0,54 0,01 -0,65 0,06 367,28
28,68 5,60 141,10 -34,13 0,59 1,06 18,56 0,06 -33,74 3,79 1,90 2,29 -0,20 573,62
-16,99 1,33 -34,13 129,60 -0,92 -2,46 -9,62 -0,04 196,06 2,64 -3,01 -5,79 -0,75 1,81
-1,05 0,53 0,59 -0,92 0,16 -0,03 -0,53 0,00 0,18 -0,14 -0,04 -0,04 -0,02 -2,99
2,50 0,39 1,06 -2,46 -0,03 0,42 1,14 0,00 -5,85 0,03 0,20 0,23 0,07 2,74
26,76 2,76 18,56 -9,62 -0,53 1,14 15,32 0,02 -16,09 2,75 1,97 2,05 0,36 206,22
0,00 0,02 0,06 -0,04 0,00 0,00 0,02 0,00 0,01 0,01 0,00 0,00 0,00 -0,50
-35,16 -4,22 -33,74 196,06 0,18 -5,85 -16,09 0,01 655,29 6,61 -3,19 -5,05 -0,26 -483,8
4,79 0,54 3,79 2,64 -0,14 0,03 2,75 0,01 6,61 0,90 0,27 0,26 0,03 29,83
3,62 0,01 1,90 -3,01 -0,04 0,20 1,97 0,00 -3,19 0,27 0,34 0,40 0,07 17,55
4,13 -0,65 2,29 -5,79 -0,04 0,23 2,05 0,00 -5,05 0,26 0,40 0,89 0,08 -0,82
0,56 0,06 -0,20 -0,75 -0,02 0,07 0,36 0,00 -0,26 0,03 0,07 0,08 0,09 10,16
270,21 367,28 573,62 1,81 -2,99 2,74 206,22 -0,50 -483,82 29,83 17,55 -0,82 10,16 32727,10
A főkomponensek terében jobban elkülönülnek a csoportok, mert kevesebb a dimenzió (a minták korreláltságának köszönhetően). Ahogy a következő 3 ábráról is leolvasható, a kezdeti csoportok nagyjából valóban elkülönülnek. A csoportok az 1-2, az 1-3, illetve a 2-3 főkomponens térben: a 2. csoport elemei az 1. csoport elemei a kis elemszámú csoport elemei
6. ábra: Minták az 1-2 főkomponens terében
21
7. ábra: Minták a 2-3 főkomponens terében
8. ábra: Minták az 1-3 főkomponens terében
22
3.4 Kezdeti csoportosítás ellenőrzése Az előző csoportosítás egy kezdetleges csoportosítás. Most azonban ellenőrzöm, hogy mennyire jól közelítettem, a következőképpen. Megnéztem Mahalanobis távolságokkal, hogy azok az elemek, amelyek nem tartoznak bele az 1. csoportba (a 2. csoportba tartoznak), milyen távol vannak az 1. csoport centrumától, majd
i -próbával vizsgáltam[11], hogy valóban a 2. csoporthoz tartoznak e az oda sorolt elemek. V0
V1
V3
V7
V8
V9
V10
V11
V13
V14
V15
V16
V18
40,76
25,04
36,91
50,29
31,90
26,78
28,77
39,37
40,07
35,93
27,91
43,10
35,55
V20
V21
V23
V27
V31
V34
V36
V38
V41
V43
V44
V45
V46
28,90
26,45
34,55
43,17
22,63
31,60
31,35
43,00
12,19
37,82
55,48
28,44
37,90
V48
V49
V51
V53
V54
V58
V60
V62
V64
V65
V66
V68
V69
21,47
28,70
31,35
39,16
17,41
47,92
20,66
24,86
28,05
20,48
40,79
24,48
28,74
V70
V71
V72
V73
V74
V76
V77
V78
28,85
31,42
26,26
17,93
36,18
30,04
30,16
32,05
1. táblázat: A 2. csoport elemeinek távolsága az 1. csoport centrumától
1. csoport centrumától való távolság 60 55 50 45 40 35 30 25 20 15 10 5 0
9. ábra: A 2. csoport elemeinek távolsága az 1. csoport centrumától
Az x tengelyen láthatóak a 2. csoportban lévő elemek sorszáma.
Mivel 14 elemem van, így a szabadságfok 14, ez alapján a i -táblázatból leolvasható:
10. ábra: 14 szabadságfokú chi négyzet próba
Ha 75% valószínűséget veszek, akkor:
23
11. ábra: Chi négyzet próba
Akkor csak a 41 sorszámú minta van a kritikus érték alatt, azonban a 75% nem túl sok. Megvizsgálom, hogy 90% valószínűséggel melyek lesznek a kritikus érték alatt:
12. ábra: Chi négyzet próba
Ekkor a 41-es mintán kívül még a 54, 60, 65, 73 sorszámú minták sem jók. Ha 95% valószínűséget veszek, akkor:
13. ábra: Chi-négyzet próba
24
A kritikus érték alatt van az előzőeken (41, 54, 60, 65, 73) kívül a 31 és 48 sorszámú minta. Ezek az elemek tehát valahol a 2 csoport határán helyezkedhetnek el.
Utána megnéztem ugyanígy Mahalanobis távolságokkal, hogy azok az elemek, amelyek nem tartoznak bele az 2. csoportba (az 1. csoportba tartoznak), milyen távol vannak az 2. csoport centrumától, majd i -próbával vizsgáltam, hogy valóban az 1. csoporthoz tartoznak e az oda
sorolt elemek.
Ekkor így alakultak az értékek: V2 V4 V6 V12 V17 V19 V22 V25 V26 V28 V30 V32 V33 79,41 137,27 134,60 123,24 76,28 121,16 144,00 101,71 147,09 107,39 141,08 111,00 129,80 V35 V37 V39 V40 V42 V50 V52 V55 V56 V59 V61 V67 119,68 97,08 137,19 94,99 138,94 113,48 133,06 93,71 125,40 102,76 142,23 140,15 1. táblázat: Az 1. csoport elemei a 2. csoport centrumától
2. csoport centrumától való távolság 155 150 145 140 135 130 125 120 115 110 105 100 95 90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0
14. ábra: Az 1. csoport elemei a 2. csoport centrumától
Ekkor jóval nagyobb értékek jöttek ki, a i -próba értékeit megnézve látható, hogy ezek az értékek bőven nagyobbak, vagyis valószínűleg valóban az 1. csoporthoz tartoznak. Második lépésként megnéztem, hogy ha egy elemet kiveszek az 1. csoportból, és úgy számolom ki az új csoportot jellemző kovarianciamátrixot és centrumot, akkor a kivett elem milyen távol van az új centrumtól. Ezt is Mahalanobis távolsággal számoltam.
25
V2 16,62 V35 51,37
V4 54,47 V37 42,52
V6 18,56 V39 25,72
V12 52,70 V40 27,55
V17 56,91 V42 29,07
V19 672,60 V50 38,03
V22 35,26 V52 65,82
V25 20,48 V55 28,03
V26 12,75 V56 29,99
V28 14,52 V59 27,17
V30 V32 22,26 10,74 V61 V67 43,87 645,73
V33 37,07
2. táblázat: Távolságok az 1. csoport centrumától
Láthatóan 2 érték igen kiugró (19 és 67 sorszámú minták), ezeket nem tettem rá a diagramra, hogy a többi jobban látszódjon. Így a következőképpen néz ki:
Kivett értékek távolsága (1. csoport) 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0
15. ábra: Távolságok az 1. csoport centrumától
Ugyanígy végig csináltam a 2. csoportra, ismételten Mahalanobis távolsággal számoltam.
Kivett értékek távolsága (2. csoport) 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0
16. ábra: Távolságok a 2. csoport centrumától
26
4. Összegzés 4.1 Eredmények Az ellenőrzés alapján azt a következtetést vontam le, hogy mivel a 41-es minta (amit eredetileg a 2. csoportba soroltam), az 1. csoport centrumához viszonylag közel van, illetve ha kivettem a 2. csoportból, akkor távol volt az új centrumtól. Tehát a 41-es minta tartozhat az 1. csoporthoz. A 19 és 67 sorszámú minták nagyon távol vannak az 1. csoport centrumától Mahalanobis távolsággal, pedig az első közelítés során oda soroltam őket. Viszont mivel a másik számításom szerint nincs közel a 2. csoport centrumához, így lehet, hogy egyik csoporthoz sem tartoznak. Több olyan elem nem volt, ami mindkét számítás szerint tartozhatna a másik csoporthoz. Számításaim alapján a végső csoportjaim: 1. csoport mintáinak sorszáma: 2, 4, 6, 12, 17, 22, 25, 26, 28, 30, 32, 33, 35, 37, 39, 40, 41, 42, 50, 52, 55, 56, 59, 61 2. csoport mintáinak sorszáma: 0, 1, 3, 7, 8, 9, 10, 11, 13, 14, 15, 16, 18, 20, 21, 23, 24, 27, 31, 34, 36, 38, 43, 44, 45, 46, 48, 49, 51, 53, 54, 58, 60, 62, 64, 65, 66, 68, 69, 70, 71, 72, 73, 74, 76, 77, 78
A minták hovatartozásának van végleges régészeti eredménye. A 80 minta nagy része két műhelyből származik. Az egyik része Észak-Itáliából, a másik része Dél-Galliából, illetve van néhány minta, ami Banassacból, illetve Lezouxból, Franciaoszágból származik, de van egy Westendorf-Pfaffenhofenből, Németországból is. Ezek sorszámai az én számításaim szerint kiszóró pontoknak, vagy a kis elemszámú csoportok elemeinek felelnek meg, vagy más korból valóak. Az észak-itáliai eredmények az 1. csoportomnak, a dél-galliai eredmények a 2. csoportomnak felelnek meg kisebb eltérésekkel. Az eltérés azért lehetséges, mert más korból származnak, de ugyanabból a műhelyből. Olyan adatok is vannak, amelyeket a régész nem tudott meghatározni, én azonban a számításaim alapján be tudtam sorolni.
4.2 Értékelés Eddigi tanulmányaimban ezekkel a módszerekkel még nem foglalkoztunk, ezért ezek megismerése sok munkát igényelt, ugyanakkor sokat tanultam is belőle, amit további 27
tanulmányaimban remélhetőleg hasznosítani tudok. A feladat számítógépi programozást is igényelt, amiben eddig szintén nem volt gyakorlatom. Ezen a területen is sokat tanulhattam a szakdolgozat kidolgozása során. Összességében örülök, hogy ezt a feladatot választottam és a matematika számomra eddig ismeretlen területeivel is megismerkedhettem.
28
5. Irodalomjegyzék [Fegyverneki] Fegyverneki Sándor: Valószínűség-számítás és matematikai statisztika (www.tankonyvtar.hu/en/tartalom/tamop425/0033_PDF_GEMAK6831B/GEMAK6831B_07.pdf) [Füstös, 2009] Füstös László: A sokváltozós adatelemzés módszerei, MTA Módszertani füzetek, 2009/1 (http://ppke.snowl.net/files/2010/08/Sokvaltozos_adatelemzes_MF_1.pdf) [Horvai, 2001] Sokváltozós adatelemzés (Kemometria), szerkesztette Horvai György, Nemzeti Tankönyvkiadó, Budapest, 2001. [Jolliffe, 2009] Jolliffe I. T.: Principal Component analysis, New York: Springer-Verlag (Megjelent: Archeometriai Műhely 2010/2) [McLachlan, 1999] G. J. McLachlan: Mahalanobis distance (Resonance, June 1999 Volume 4 Number 6) (http://www.ias.ac.in/resonance/June1999/pdf/June1999p20-26.pdf) [MVSP] MultiVariate Statistical Package program leírása [Obádovics, 2009] Dr. Obádovics Csilla: Klaszteranalízis, Eger, 2009. (Szakdolgozat, megtalálható: miau.gau.hu/miau/128/szakdolg_ocs.doc) [Ormándi] Ormándi Róbert: Mesterséges intelligencia II (Oktatási jegyzet, Szegedi Tudomány Egyetem, megtalálható: http://www.inf.u-szeged.hu/~ormandi/ai2/02-UPGMA.pdf) [Petz, 2000] Petz Dénes - Lángné Lázi Márta: Matematika III., BME Matematika Intézet, 2000. (www.math.bme.hu/lazi/index.php?option=com_content&view=article&id=68&Itemid=62) [Závoti] prof. Závoti József: A statisztika alapfogalmai (Internetes jegyzet, megtalálható: http://www.tankonyvtar.hu/en/tartalom/tamop425/0027_MA3-6/ch01s08.html) [1] Wikipedia (http://hu.wikipedia.org/wiki/Neutron, http://hu.wikipedia.org/wiki/Terra_sigillata) [2] http://efabis.univet.hu:8080/biostat/szotar/faktoranalizis [3] http://www.inf.unideb.hu/valseg/dolgozok/ispany/Multivar/main.html [4] http://www.stanford.edu/~maureenh/quals/html/ml/node55.html [5] UPGMA: http://www.stanford.edu/~maureenh/quals/html/ml/node76.html [6] WPGMA: http://www.stanford.edu/~maureenh/quals/html/ml/node77.html [7] http://www.inf.unideb.hu/valseg/JEGYZET/valseg/node153.htm [8] Centroid: http://www.stanford.edu/~maureenh/quals/html/ml/node78.html [9] Median: http://www.stanford.edu/~maureenh/quals/html/ml/node79.html [10] www.inf.unideb.hu/valseg/JEGYZET/valseg/node123.htm, www.cs.elte.hu/~mori/statea05.html, www.tankonyvtar.hu/hu/tartalom/tamop425/0033_SCORM_GEMAK6831B/sco_07_02.htm [11] A konzulensem javaslata alapján. 29
Függelék
30
0 98,5 33,9 139 12,5 6,11 4,73 49,3 0,48 200 20 8,5 13,2 3,6 500 30 81 Ce Co 20,7 Cr 110 Cs 8,4 Fe% 5,58 Hf 3,8 La 35,8 Lu 0,43 Rb 180 Sc 17,8 Sm 7,2 Th 12,5 Yb 3,02 Zn 450 60 81 Ce Co 20,7 Cr 110 Cs 8,4 Fe% 5,58 Hf 3,8 La 35,8 Lu 0,43 Rb 180 Sc 17,8 Sm 7,2 Th 12,5 Yb 3,02 Zn 450 Ce Co Cr Cs Fe% Hf La Lu Rb Sc Sm Th Yb Zn
1 104 35 123 15,8 4,96 4,98 49,5 0,45 186 20,5 8,4 13,9 3,7 410 31 77,1 20,7 125 8,3 5,78 4,1 36,4 0,54 162 18,2 7,47 12,1 3,19 130 61 77,1 20,7 125 8,3 5,78 4,1 36,4 0,54 162 18,2 7,47 12,1 3,19 130
2 78,4 22,6 118 7,9 5,43 4,36 35,9 0,44 148 17,8 7 12,3 3,4 330 32 71,1 25,2 125 7,1 5,9 3,57 34,7 0,39 158 18,5 6,63 11,9 3,24 320 62 71,1 25,2 125 7,1 5,9 3,57 34,7 0,39 158 18,5 6,63 11,9 3,24 320
3 86,9 18 116 7,5 4,62 5,9 41,6 0,45 128 17,1 7,7 12,6 4,14 360 33 84,5 20,8 128 55,9 4,18 4,6 43,8 0,48 255 19,7 7,11 11,8 3 270 63 84,5 20,8 128 55,9 4,18 4,6 43,8 0,48 255 19,7 7,11 11,8 3 270
4 79,6 21,2 120 6,8 5,23 3,7 36 0,41 126 17,8 6,6 11,7 2,9 420 34 91,5 21,1 118 51 4,33 4,2 43,3 0,48 205 20,3 7,39 11,9 3,6 660 64 91,5 21,1 118 51 4,33 4,2 43,3 0,48 205 20,3 7,39 11,9 3,6 660
5 72,6 24,9 159 6,7 5,26 5,25 37,1 0,36 140 17,2 7,2 11,4 3,04 1100 35 83,2 21,6 121 56,8 4,35 4,4 42,3 0,38 260 19,9 7,11 12,2 3,1 430 65 83,2 21,6 121 56,8 4,35 4,4 42,3 0,38 260 19,9 7,11 12,2 3,1 430
6 72,5 23,4 123 8,9 5,42 4,48 37,1 0,4 170 18 7 12 2,56 410 36 98,7 20 130 48,6 4,46 5 45,6 0,47 230 20,5 7,79 13,2 3,5 450 66 98,7 20 130 48,6 4,46 5 45,6 0,47 230 20,5 7,79 13,2 3,5 450
7 102 40,7 128 14,5 5 6,9 52,4 0,55 150 20,7 9 13,5 3,9 700 37 101 19,5 138 50,7 4,44 3,9 45,3 0,46 260 20,7 7,69 13,1 3,1 480 67 101 19,5 138 50,7 4,44 3,9 45,3 0,46 260 20,7 7,69 13,1 3,1 480
8 105 29,3 140 13,8 4,36 5,56 50,5 0,55 153 20,9 8,4 13 3,23 150 38 108 19,1 140 18 4,53 5,5 50,7 0,51 220 21 9,2 14,6 4,1 520 68 108 19,1 140 18 4,53 5,5 50,7 0,51 220 21 9,2 14,6 4,1 520
9 112 25,5 141 17,5 5,08 6,46 51,3 0,44 180 21 8,8 13,8 3,63 600 39 76 24,2 120 9,4 5,5 3,9 36,6 0,39 180 18,3 7,08 11,4 2,9 450 69 76 24,2 120 9,4 5,5 3,9 36,6 0,39 180 18,3 7,08 11,4 2,9 450
10 95,5 33,5 128 40 4,84 3,9 47,2 0,45 200 20,6 8 12,6 3,3 600 40 77,8 24,3 134 9,33 5,72 3,96 37,7 0,47 168 18,6 7,14 12,3 3,24 450 70 77,8 24,3 134 9,33 5,72 3,96 37,7 0,47 168 18,6 7,14 12,3 3,24 450
11 107 25,2 129 17 4,89 4,63 51,6 0,45 125 20,7 8,6 14,1 3,56 670 41 75,7 20,7 137 8,3 5,74 3,76 36,6 0,47 200 18,8 7,11 13,6 3,3 420 71 75,7 20,7 137 8,3 5,74 3,76 36,6 0,47 200 18,8 7,11 13,6 3,3 420
12 70,4 23 132 8,7 5,75 3,52 34,7 0,42 161 18,4 6,8 12,8 2,88 380 42 72,3 22,6 120 8,54 5,98 3,24 35,8 0,38 180 18,7 6,77 12,2 3,24 300 72 72,3 22,6 120 8,54 5,98 3,24 35,8 0,38 180 18,7 6,77 12,2 3,24 300
13 102 24,6 138 14,4 4,41 5,55 52,9 0,56 185 21,2 9,2 15,3 3,44 310 43 95,3 18,6 125 7,5 5,35 6 43,1 0,45 150 17,3 7,96 14,4 3,33 290 73 95,3 18,6 125 7,5 5,35 6 43,1 0,45 150 17,3 7,96 14,4 3,33 290
14 110 19,7 127 18 4,78 5,04 52,7 0,47 170 20,9 9,3 14,3 3,67 470 44 106 19,9 178 16,6 5,48 6,02 51,8 0,5 160 20,2 8,92 13,6 3,19 350 74 106 19,9 178 16,6 5,48 6,02 51,8 0,5 160 20,2 8,92 13,6 3,19 350
15 109 21,4 135 12,4 4,92 5,7 52,9 0,42 161 21 9,4 13,8 3,5 536 45 110 19,8 143 14,7 4,7 5,74 52,2 0,5 175 21,3 9,18 14,1 3,75 320 75 110 19,8 143 14,7 4,7 5,74 52,2 0,5 175 21,3 9,18 14,1 3,75 320
16 114 21,3 137 16,4 4,95 4,6 51,2 0,5 155 20,9 8,8 13,3 3,33 580 46 112 17,7 130 18,5 4,84 6,21 52,6 0,5 186 21,5 9,1 15 3,73 360 76 112 17,7 130 18,5 4,84 6,21 52,6 0,5 186 21,5 9,1 15 3,73 360
17 84 20 125 8,3 5,64 4,4 40,8 0,38 182 19,2 7,6 13,5 3,02 470 47 109 18,8 132 18,2 21,3 5,34 53,2 0,55 170 21,3 9,14 14,8 3,65 460 77 109 18,8 132 18,2 21,3 5,34 53,2 0,55 170 21,3 9,14 14,8 3,65 460
18 105 19,2 127 17 5,08 4,8 50,8 0,4 173 21,2 8,8 15,2 4,1 380 48 105 18,8 140 16 4,51 5,14 52,1 0,45 200 21,3 8,82 15,1 3,62 360 78 105 18,8 140 16 4,51 5,14 52,1 0,45 200 21,3 8,82 15,1 3,62 360
19 86,4 22,6 131 6,9 4,29 4,2 43,1 0,45 270 19,8 7 12,7 3,1 480 49 108 22,9 140 14,9 4,69 5,13 52,3 0,48 180 21,2 9,07 15,5 3,59 370 79 108 22,9 140 14,9 4,69 5,13 52,3 0,48 180 21,2 9,07 15,5 3,59 370
20 104 18,6 143 18 4,67 5,04 52,7 0,5 160 21,5 8,7 14,3 3,1 550 50 82 19,4 113 4,4 5,45 4 37,1 0,45 170 17,7 7,4 12,4 3,2 150
21 104 26,1 160 16,2 4,84 5,4 52 0,41 160 20,5 8,6 14,3 3,4 700 51 108 20,1 130 12,8 4,52 5,5 50,3 0,47 183 20,9 9,2 15,5 3,9 155
22 77,6 21,8 127 8,2 5,54 3,3 34,9 0,41 190 18,1 6,8 12,5 3,6 560 52 81 21,4 125 9,2 5,68 3,7 38,1 0,43 208 17,9 7,3 13,4 3,3 150
23 104 20,2 123 17,3 4,38 5,7 50 0,54 160 20,3 8,86 14,4 3,26 470 53 110 21,4 144 14,3 4,87 6,1 49,5 0,49 150 20,9 8,8 14,3 3,9 190
24 108 21,6 124 13,9 4,96 5,8 54,3 0,56 203 20,5 10 14,6 4,3 510 54 104 17,9 120 15,4 4,75 5,2 48,2 0,44 176 20,3 8,2 13,8 3,2 156
25 76,2 22,6 125 7 5,44 4,6 35,9 0,37 140 17,5 7,18 11,8 3,08 340 55 81 23,1 108 7,3 5,39 3,6 36,6 0,43 138 17,5 7 11,8 3,2 170
26 70,5 20,9 128 6,65 5,64 3,9 36,3 0,42 170 17,5 7,14 12,3 2,88 380 56 77 22,4 105 5,8 5,64 4,6 35,7 0,43 160 18 6,7 11,8 3,2 150
27 103 19,8 130 14,8 4,57 5,3 52,2 0,54 170 20,7 8,7 13,9 3,9 310 57 94 14,3 76 5,7 4,11 4,7 43,7 0,36 260 13,4 8,2 16,9 2,5 180
28 72,5 22,1 127 7,24 5,4 4,3 36,2 0,41 160 17,7 6,99 11,8 3,35 270 58 105 21,3 105 7,4 5,3 6,1 46,4 0,43 150 18,5 9,2 15,7 3,2 170
3. táblázat:
A 14 elem koncentrációja
29 96,4 12,2 86,4 73,6 4,01 5,1 49,3 0,34 310 14,4 8,8 20,1 2,6 460 59 90 25,4 133 54,8 4,51 4,4 43 0,46 260 20,3 7,2 12,1 2,9 158
0 3,6 1,5 7 0,7 0,22 0,5 1,6 0,04 24 0,5 0,3 0,6 0,2 30 30 3 Ce Co 0,9 6 Cr Cs 0,6 Fe% 0,2 Hf 0,4 La 0,9 Lu 0,02 Rb 20 Sc 0,4 Sm 0,2 Th 0,5 Yb 0,2 25 Zn 60 4 Ce 1 Co 6 Cr Cs 0,7 Fe% 0,17 Hf 0,5 La 1,4 Lu 0,03 Rb 20 Sc 0,5 Sm 0,3 Th 0,6 Yb 0,1 15 Zn Ce Co Cr Cs Fe% Hf La Lu Rb Sc Sm Th Yb Zn
1 4 1,3 6 0,5 0,18 0,38 1,4 0,08 20 0,5 0,3 0,6 0,2 30 31 2,8 0,9 5 0,6 0,19 0,4 1 0,03 16 0,5 0,24 0,5 0,24 15 61 3 1 7 1,7 0,16 0,4 1,1 0,02 20 0,5 0,2 0,5 0,1 15
2 3,4 1 7 0,5 0,2 0,5 1,2 0,04 18 0,4 0,2 0,6 0,2 34 32 2,6 1 5 0,5 0,2 0,31 1 0,07 18 0,5 0,21 0,5 1 20 62 4 0,9 7 1,3 0,16 0,4 1,2 0,02 24 0,4 0,2 0,6 0,2 15
3 3,2 0,8 5 0,5 0,17 0,4 1,4 0,03 15 0,4 0,2 0,5 0,18 30 33 3,6 0,9 6 1,8 0,15 0,4 1,2 0,1 25 0,5 0,23 0,6 0,2 20 63 4 0,7 5 6 0,17 0,5 1,7 0,03 40 0,3 0,4 1,3 0,2 12
4 4 1,1 7 0,6 0,19 0,4 1 0,02 21 0,4 0,2 0,3 0,3 50 34 3,3 0,9 6 1,6 0,16 0,5 1,2 0,03 20 0,5 0,24 0,6 0,2 40 64 4 1,2 7 1,4 0,2 0,5 1,2 0,03 20 0,5 0,3 0,6 0,2 20
5 3,1 1,3 8 0,7 0,2 0,6 1,2 0,05 20 0,4 0,2 0,7 0,3 70 35 3,6 0,9 6 1,8 0,16 0,4 1,2 0,03 20 0,5 0,23 0,6 0,4 30 65 4 0,9 6 0,9 0,18 0,5 1,5 0,03 20 0,6 0,3 0,5 0,2 30
6 3,1 1 6 0,6 0,2 0,38 1,2 0,07 18 0,4 0,2 0,6 0,15 20 36 4,2 1 7 1,6 0,16 0,5 1,5 0,03 20 0,5 0,25 0,5 0,2 30 66 4 1,3 7 1,6 0,2 0,6 1,6 0,2 20 0,6 0,3 0,7 0,2 20
7 4 1,7 9 1 0,18 0,7 1,7 0,11 10 0,5 0,3 0,8 0,5 40 37 4 0,6 7 1,6 0,16 0,4 1,2 0,09 30 0,5 0,25 0,6 0,3 30 67 4 1 7 1,5 0,19 0,4 1,1 0,03 25 6 0,2 0,6 0,2 20
8 5 1,3 7 1,2 0,16 0,47 1,6 0,02 20 0,5 0,3 0,6 0,14 16 38 5 1 7 1,1 0,17 0,6 1,6 0,05 30 0,5 0,3 0,7 0,2 30 68 4 1 7 1,3 0,19 0,4 1,4 0,03 20 0,6 0,3 0,6 0,3 15
9 4 1,1 8 0,9 0,18 0,61 1,7 0,02 20 0,5 0,3 0,8 0,21 30 39 2,8 1 6 0,6 0,2 0,4 1,2 0,04 20 0,5 0,23 0,6 0,2 30 69 4 0,9 6 1,3 0,19 0,4 1,4 0,03 20 0,6 0,3 0,5 0,2 20
10 3,5 1,4 7 1,5 0,18 0,5 1,5 0,03 20 0,5 0,3 0,6 0,25 40 40 3,3 1 7 0,71 0,2 0,5 1,1 0,03 22 0,5 0,24 0,6 0,22 30 70 4 0,8 6 1,3 0,16 0,4 1,4 0,02 18 0,5 0,3 0,5 0,1 20
11 4 1,3 6 1 0,18 0,62 1,7 0,04 20 0,5 0,3 0,7 0,27 40 41 4 1 7 0,6 0,21 0,43 1,1 0,04 24 0,5 0,24 0,7 0,2 40 71 4 1 7 0,8 0,22 0,5 1,4 0,02 16 0,5 0,3 0,6 0,2 20
12 2,6 1 7 0,4 0,18 0,33 1,1 0,04 18 0,5 0,2 0,5 0,15 30 42 2,7 1,3 6 0,5 0,2 0,37 1 0,02 20 0,5 0,23 0,5 0,12 30 72 4 0,2 6 1,2 0,19 0,4 1,4 0,03 20 0,6 0,3 0,5 0,1 20
13 4 1,1 6 0,7 0,16 0,48 1,7 0,03 20 0,5 0,3 0,6 0,6 25 43 3,2 0,8 6 0,5 0,2 0,4 1,2 0,04 20 0,5 0,26 0,6 0,17 20 73 13 0,9 6 0,9 0,18 0,4 1,4 0,02 18 0,5 0,3 0,5 0,2 20
14 4 1 7 0,8 0,17 0,48 1,7 0,04 20 0,5 0,3 0,6 0,22 30 44 5 0,8 8 0,5 0,21 0,5 1,5 0,02 20 0,5 0,3 0,6 0,16 30 74 5 1,1 8 1 0,2 0,5 1,5 0,03 25 0,5 0,3 0,7 0,2 20
15 4 1,1 1 1,1 0,18 0,5 1,7 0,05 20 0,5 0,3 0,7 0,7 33 45 5 0,9 6 0,7 0,18 0,4 1,5 0,02 20 0,6 0,31 0,5 0,25 30 75 4 0,7 5 2,3 0,17 0,5 1,4 0,02 26 0,4 0,3 0,7 0,2 20
16 4 1,1 8 0,8 0,18 0,6 1,7 0,04 22 0,5 0,3 0,7 0,74 70 46 4 0,9 7 0,9 0,18 0,53 1,5 0,04 20 0,6 0,3 0,8 0,2 30 76 4 0,8 7 0,7 0,18 0,4 1,5 0,1 20 0,6 0,3 0,6 0,2 14
17 4,2 0,9 7 0,6 0,21 0,4 1,3 0,04 22 0,5 0,2 0,7 0,2 30 47 5 1 8 0,9 0,6 0,51 1,5 0,02 20 0,6 0,3 0,6 0,16 30 77 4 0,7 7 0,9 0,17 0,5 1,6 0,03 20 0,6 0,3 0,5 0,1 20
18 4 1 7 0,7 0,19 0,5 1,6 0,05 30 0,5 0,3 0,7 0,3 30 48 4 0,8 6 0,8 0,17 0,4 1,5 0,03 20 0,6 0,3 0,6 0,14 30 78 4 0,8 6 0,5 0,15 0,4 1,5 0,02 14 0,5 0,3 0,6 0,2 20
19 3,7 1,5 7 2,2 0,16 0,5 1,4 0,03 30 0,5 0,2 0,6 0,2 30 49 4 1 7 0,9 0,18 0,44 1,5 0,02 20 0,6 0,3 0,7 0,16 30 79 4 0,5 5 2,2 0,15 0,4 1,5 0,03 20 0,4 0,3 0,6 0,2 20
20 4 0,9 1 0,7 0,17 0,4 1,7 0,05 20 0,5 0,3 0,6 0,1 30 50 3 0,8 6 0,6 0,2 0,4 1 0,02 20 0,4 0,2 0,5 0,2 16
21 4 1,3 9 0,9 0,18 0,6 1,7 0,03 20 0,5 0,3 0,7 0,4 40 51 4 0,9 6 0,8 0,17 0,5 1,4 0,1 20 0,5 0,3 0,6 0,2 15
22 3,3 1,1 7 0,6 0,2 0,4 1,4 0,04 25 0,4 0,2 0,6 0,2 30 52 3 0,9 6 0,6 0,21 0,4 1,1 0,17 20 0,4 0,2 0,6 0,2 15
23 4 0,9 6 0,9 0,16 0,5 1,6 0,03 20 0,5 0,28 0,6 0,31 30 53 5 1 8 1 0,18 0,6 1,6 0,06 22 0,5 0,3 0,7 0,2 15
24 5 1,1 8 0,9 0,18 0,5 2,1 0,04 20 0,5 0,3 0,7 0,3 30 54 4 0,8 6 0,8 0,17 0,4 1,3 0,02 20 0,5 0,3 0,6 0,1 16
25 2,8 0,8 5 0,4 0,17 0,4 1,2 0,04 20 0,4 0,23 0,5 0,35 20 55 3 0,9 5 0,5 0,17 0,3 1 0,02 15 0,4 0,2 0,5 0,1 10
26 3 0,9 7 0,51 0,21 0,4 1,2 0,03 20 0,4 0,23 0,5 0,17 30 56 3 1 6 0,5 0,21 0,4 1,2 0,02 20 0,5 0,2 0,5 0,1 15
27 4 0,8 7 0,7 0,17 0,5 1,7 0,02 20 0,5 0,3 0,6 0,2 20 57 3 0,6 4 1,8 0,13 0,3 1,2 0,02 20 0,3 0,3 0,6 0,1 15
28 2,6 0,8 5 0,4 0,17 0,3 1,2 0,03 20 0,4 0,22 0,5 0,17 20 58 6 1,8 13 1,3 0,27 1,1 1,8 0,07 25 0,6 0,3 0,9 0,4 30
29 3,5 0,7 6,5 2,4 0,15 0,5 1,6 0,03 30 0,4 0,28 0,8 0,2 40 59 3 1,1 7 1,8 0,17 0,4 1,2 0,03 24 0,5 0,2 0,5 0,1 20
4. táblázat:
Mérési eredmények becsült szórása nyomelemenként
17.ábra: Centroid
Dendrogram Centroid módszerrel, Euklideszi távolságot véve az 5 dimenzióra lecsökkentett adatokra. (x tengelyen láthatóak a minták sorszámai, y tengelyen az Euklideszi távolság)
18. ábra:
Median
Dendrogram Median módszerrel, Euklideszi távolságot véve az 5 dimenzióra lecsökkentett adatokra. (x tengelyen láthatóak a minták sorszámai, y tengelyen az Euklideszi távolság)
34
19. ábra: UPGMA
Dendrogram UPGMA módszerrel, Euklideszi távolságot véve az 5 dimenzióra lecsökkentett adatokra. (x tengelyen láthatóak a minták sorszámai, y tengelyen az Euklideszi távolság)
35
20. ábra: WPGMA
Dendrogram WPGMA módszerrel, Euklideszi távolságot véve az 5 dimenzióra lecsökkentett adatokra. (x tengelyen láthatóak a minták sorszámai, y tengelyen az Euklideszi távolság)
36