Az ideális klaszterszám felismerése hasonlóságelemzések keretében (Approximation of the ideal number in the cluster analyse based on similarity analyses) Pitlik László, Ruff Ferenc, SZIE GTK MY-X kutatócsoport Az ideális klaszterszám felismerése hasonlóságelemzések keretében ...................................... 1 Bevezetés .................................................................................................................................... 3 Szakirodalmi háttér .................................................................................................................... 5 Gondolatkísérletek ..................................................................................................................... 6 1. kísérlet ............................................................................................................................. 6 Az adatvagyonról ............................................................................................................... 6 A matematikai-statisztikai háttér-számításokról ................................................................ 7 A hasonlóságelemzésről ..................................................................................................... 9 Az optimális megoldások keresése - szignifikancia vizsgálatok........................................ 9 Eredmények ...................................................................................................................... 10 Következtetések ............................................................................................................... 11 2. kísérlet .............................................................................................................................. 12 Az adatvagyonról ............................................................................................................. 12 A matematikai-statisztikai háttér-számításokról .............................................................. 13 A hasonlóságelemzésről ................................................................................................... 13 A kérdőíves felmérésekről ............................................................................................... 13 Eredmények ...................................................................................................................... 13 Következtetések ............................................................................................................... 13 3. kísérlet .............................................................................................................................. 14 Az adatvagyonról ............................................................................................................. 14 A matematikai-statisztikai háttér-számításokról .............................................................. 15 A hasonlóságelemzésről ................................................................................................... 15 Eredmények ...................................................................................................................... 16 Következtetések ............................................................................................................... 18 4. kísérlet .............................................................................................................................. 19 Az adatvagyonról ............................................................................................................. 19 A matematikai-statisztikai háttér-számításokról .............................................................. 19 Eredmények ...................................................................................................................... 19 Következtetések ............................................................................................................... 19 Konklúziók ............................................................................................................................... 19 Vita ........................................................................................................................................... 20 Irodalom ................................................................................................................................... 20
Kivonat: A klaszterezés kapcsán az ideális klaszterszám keresési kifejezés kevés találatot eredményez a magyar nyelvű oldalakon. Ezek egy része érdemi tartalom nélkül leginkább csak sejteti a fogalmat, míg más esetekben ennek lehetősége is kérdőjellel kerül megfogalmazásra. Ideális ponthalmazok (pl. négyzet, háromszög, kör) klaszterezése keretében a k-közép eljárás kapcsán anomáliák voltak fellelhetők saját kísérleteinkben, melyek természetesen kihatnak tetszőleges ponthalmazok értelmezésére is és zavaró jelként hatnak az ideális klaszterszám feltárása során is. A zavarok létezésére 2-dimenziós ponthalmazokra vonatkozó intuíciótesztek is rámutattak. Az optimális klaszterszám kapcsán olyan eljárás kerestetik (vö. robotszem) tehát, mely képes a zavaró hatásokat kiküszöbölve, tetszőleges dimenziószám mellett is feltárni az eddig használt klaszterezés-értékelési attribútumok tetszőleges köre alapján az ideális klaszterszámot. A többlépcsős hasonlóságelemzés anti-diszkriminatív rétege (COCO-Y0) maximális érzékenységre állított változata az itt bemutatandó részletek mellett képesnek mutatkozott erre. Kulcsszavak: robotszem, hermeneutika, anti-diszkriminációs modellek, optimalizálás, automatizálás, mesterséges intelligencia, hasonlóságelemzés Abstract: The ideal number of clusters in case of a given data asset seems to have a marginal position in the literature published in Hungarian based on the amount of Google results. Some of them deliver hardly any relevant information. Other sources evaluate the problem as not to solve. If ideal sets of data (like rectangular, triangular clouds or circle of coordinates) got analysed the k-mean solution produced anomalies. These anomalies have massive impacts in case of arbitrary data assets. With other words: the ideal number of clusters can only be interpreted in form of approximations. Anomalies could also be detected through questionnaires, where human eyes and brains got used for interpretation tasks. The objective of this article is, to report about the possibility and technical solution of a robot eye. Multilayered antidiscriminative similarity analyses(COCO-Y0) is capable, to ensure rational interpretation of pictures. Keywords: robot-eye, hermeneutics, anti-discrimination models, optimizing, automation, artificial intelligence, similarity analysis
Bevezetés Egy 2013-as SZIGMA1-tanulmányban a központi kérdés az volt: Vajon „a klaszteranalízis során létrejövő lehetséges megoldások (különböző klaszterszámok) esetén melyiket fogadjuk el az adatbázisban feltételezett csoportok legjobb közelítésének”? A hangsúly ott és akkor, mint érezhető, a feltételezett csoportokhoz való viszonyításon volt. Itt és most azt a hermeneutikai kérdést igyekeznek a szerzők megválaszolni: Vajon melyik az ideális klaszterszám2, ha nincs semmilyen prekoncepciója az elemzőnek a lehetséges csoportokról? Más megfogalmazásban: Van-e egyáltalán matematikai értelemben joga bárkinek is csoportokról/csoportképzésről beszélni, vagy minden csoportosítás másként egyformának minősítendő objektíven „context free” jelleggel? A matematikai kérdést legszemléletesebben talán a színtévesztésteszt (vö. 1-2. ábra) hermeneutikai rétegeivel lehetne szemléltetni, ahol az európai kultúrkörben használt számokhoz képest, egy hajó felismerése is egyes esetekben (nem a látásképesség, hanem az értelmező/hermeneutikai képesség folytán) már gondot okozhat adott esetben adott személy számára. Ha pedig az ázsiai kultúrkörbe lépünk át európaiként, talán egyikünk sem tudna megfelelni a színtévesztés tesztben elrejtett ábrák kapcsán, hiszen nem tudjuk, mit is kellene látnia (akarni).
1. ábra: Színtévesztési tesztek I. (Forrás: http://www.novakoptika.hu/images/szinteveszto-teszt-szinlatas-vizsgalat.gif
2. ábra: Színtévesztési tesztek II. (Forrás: http://www.nig.ac.jp/color/barrierfree/images/img_b11_s.gif, ill. http://www.sehtestbilder.de/farbtafeln/images/09-666-zunge-rausstrecken.jpg) 1
http://www.szigma.ktk.pte.hu/index.php/letoltesek/2013-xliv-evfolyam-3-4-szam/ruff-ferenc-klaszterszamokmeghatarozasanak-egy-lehetseges-megoldasa/download 2 A klaszterszám értelemszerűen egyben a teljes (tetszőleges dimenzióban értelmezett) adathalmaz kapcsán minden egyes pont és csoport teljes újrarendezését tételezi fel, nem pedig gráfszerűen a már beazonosított alacsonyabb klaszterszámokban deklarált csoportok felbontását kell ez alatt érteni. Ebből az is következik, hogy egy relatíve nagy ideális klaszterszám esetén a klaszterszám csökkentése gráfszerűen a már feltárt apró csoportokat érintetlenül hagyva, ismét csak egy önálló matematikai probléma.
Egy másik példa lehet a „Kód neve: Merkúr” című film elvileg fiktív kisfiújának autizmusa, vagyis az a képesség, mely mintázatot képes meglátni komplex (vizuális) kódban is. Az alábbi kép is arra mutat példát, vajon mennyi is az ideális klaszterszám a véletlenszerűen generált 2D-s mintában? (vö. 3. ábra)
3. ábra: Pontfelhők intuitív értelmezése (Forrás: saját ábrázolás) Jelen tanulmány emellett foglalkozik a klaszterezési eljárások és az emberi észlelés kapcsolatának vizsgálatával is, amikor is ugyanazon ponthalmazok keverékének egyre növekvő pontszámú esetei alapján hol húzódik az emberi és a matematikai észlelés (optimális klaszterszám-felismerés) határa? (Példával érzékeltetve: vajon egy miniatűr, pixelszinten színhű fotó alapján hamisított festmény, mely tételesen tartalmazza a fotó pixeleit, meg lehet-e állapítani egy nagy festmény eredetiségét/hamisságát a nagyítás során keletkező többi pixel tulajdonságai alapján)? Nem foglalkozik a cikk jelenleg még a klaszterezési eljárások fejlesztésével celluláris automaták analógiáira támaszkodva, (ahol pl. adott objektum szomszédsági statisztikái alapján arra a kérdésre keres választ az elemző: mely más objektumokkal mutat leginkább rokonságot egy-egy objektum? Hasonlóképpen önálló kérdés például az is, hogy fuzzyorientáció mellett a bármilyen módon alkotott klaszterek pl. eloszlás-vezérelt idealitásának utólagos finomhangolásai alternatívái hogyan lelhetők fel, így garantálva annak az emberi képességnek algoritmikus leképezését, ahol a cél vizuálisan egymásba metszeni tudó halmazok felismerni tudása.
Szakirodalmi háttér A magyar nyelvű szakirodalom az „ideális klaszterszám” keresési kifejezés saját szervereinken való említésén túl (-site:gau.hu) csak 8 találatot mutat csak fel3.
4. ábra: Találati lista (Forrás: Google) Bár nem szokás magát a találati listát megadni, de jelen speciális esetben a találatok alacsony száma és a rövid nézet önmagyarázó jellege kapcsán ez mégis racionális, hiszen, mint jól érzékelhető, a téma marginálisnak tűnik a szakmai közönség számára. A probléma csak az, hogy az ideális klaszterszám fogalmi rendezettsége nélkül lényegében minden klaszterezés ingatag lábakon áll. Ha ugyanis valaki tudja, milyen csoportszám az ideális, akkor miért is igyekszik ezt egy kalibrálatlan és/vagy esetlegesen nem kellően kiforrott eljárással „legitimálni”. Ha pedig nem tudja, akkor egy validálatlan mérőműszertől mit is vár a szakmai közösség?
3
https://www.google.hu/search?q=%22ide%C3%A1lis+klasztersz%C3%A1m%22+-site%3Agau.hu
Gondolatkísérletek Az alábbiakban a bevezetésben jelzett SZIGMA-cikk kapcsán már elvégezett számításokból kiindulva további gondolatkísérletek kerültek inicializálásra a mindenkor felismerni vélt összefüggésekre láncszerűen támaszkodva. A SZIGMA-cikk már megalapozta azt a gondolatot, miszerint számos attribútum létezik/kreálható, melyek értéke minden egyes klaszterszám esetén meghatározható, vagyis az ideális klaszterszámot formálisan egy többtényezős értékelési rendszer (OAM) alapján illene felismerni tudni. Ezzel a cikk jelezte azt is, hogy a klaszterezés kapcsán hiányzik a boltívből a zárókő, vagyis a teljes klaszterezési folyamat a modellszámításoktól a számítások értelmezéséig nem kapcsolódik láncszerűen egymáshoz, s a jelenlegi klaszterezést kínáló szoftverek nem kívánnak/nem tudnak az optimális klaszterszám fogalmával dolgozni.
1. kísérlet A SZIGMA-cikk kapcsán az első kísérletet inicializáló értelmezésekben kizárásra kerül, hogy elsőként pl. koncentrikus csoportképzés kerüljön a fókuszba. Az első kísérlet mereven követni szándékozott a SZIGMA-cikkben jelzett k-közép módszert a klaszterképzés kapcsán. Vagyis olyan klaszterek feltárása volt fontos, melyekre igaz, hogy a létező pontok közül kiválasztott n db klaszterközépponthoz mért távolságát kell az egyéb ismert és valamely klaszterközépponthoz sorolt pontok esetében minimalizálni. (Tehát már az az eset sem került ebben a kísérletben vizsgálatra, amikor is a klaszterközéppontok fiktívek, vagyis nem a létező pontok közül választott pontokról van szó ezek esetében – vö. a fentebb említett koncentrikus klaszterek képzésének általános esete).
Az adatvagyonról Elemszám: fokozatosan növekvő (1000-2000-4000-10000-20000 darab pont) Dimenziók száma: 2 (x1, x2) Tartalma: véletlen számok, ahol a véletlen hatása az egymásba csúszó középpontjukkal és maximális X,Y irányú kiterjedésükkel jellemzett ponthalmazok pontjainak kiválasztásáig terjedt ki, a középpontokra és a 2D-s kiterjedésekre nem.
1000 2000 4000 10000 20000 5. ábra: Véletlenszerű pontfelhők eltérő pontmennyiségekkel (Forrás: saját ábrázolás) Mint jól látható, az egyes szcenáriók egyre több pontot tartalmaznak, de ebben a kísérletben a kevesebb pontot tartalmazó esetek pontjai csak véletlenszerűen szerepelhetnek az egyre nagyobb egyedszámú halmazokban. Itt és most nem cél annak deklarálása, mennyi pici pontfelhő is került milyen középpontokkal és kiterjedésekkel megadásra, lévén a főkérdés, az ideális klaszterszám context free jelleggel kell, hogy értelmezést nyerjen. Természetesen szinte minden Olvasó (látó és értelmezőképességtől függően) valamilyen becslést le merne adni arra a spontán kérdésre, vajon hány szórópisztollyal odafújt foltocskát vél felfedezni az egyes pontfelhőkben?
A matematikai-statisztikai háttér-számításokról Munkakörnyezet: R (vö. https://www.r-project.org/) A vizsgálatba bevont indexek4 és szögletes zárójelben ezek idealitásának iránya a legracionálisabb klaszterképzés esetében (forrás: https://cran.rproject.org/web/packages/clusterCrit/vignettes/clusterCrit.pdf, 21.oldal - Table 2: Method to determine the [best] partition): ball_hall (X(A1)): [max] calinski_harabasz (X(A2)): [max] davies_bouldin (X(A3)): [min] dunn (X(A4)): [max] gdi11 (X(A5)): [max] gdi12 (X(A6)): [max] gdi13 (X(A7)): [max] ksq_detw (X(A8)): [max] ray_turi (X(A9)): [min] s_dbw (X(A10)): [min] silhouette (X(A11)): [max] trace_w (X(A12)): [max] Az öt ponthalmaz kapcsán ugyanazon klaszterezési eljárással (k-közép) itt és most a 2-20 közötti klaszterszámok kerültek vizsgálatra – egyelőre nem vizsgálva azt a kérdést, miként is fog hatni az ideális klaszterszámra a minden halmaz egyeleműsége irányába való elmozdulás? Az 5 ponthalmaz 19 klaszterszám-variánsa kapcsán tehát 95 értelmezési ábra születhet, melyekből itt és most az adott felbontás mellett még értelmezhetőnek tűnő 2-10-es klaszterszámok ábrái szerepelnek érzékeltetésül az Olvasók vizuális intuíciójának motiválása érdekében. Az ábrák tehát a „robotszem” kapcsán azt mutatják meg, mit vél látni a pontfelhőben a „robot”, aki nem tudja, hogy egy graffitis hányszor nyomta meg a festékszóróflakont azonos erősséggel a pontfelhő kialakítása érdekében…
4
http://cran.r-project.org/src/contrib/Archive/clusterCrit/
6. ábra: A robotszem által értelmezni vélt alakzatok a 2-10 klaszter tartományban (forrás: „R”-modellek) Mint az első sor egyre növekvő számú ponthalmazt feldolgozó ábrái alapján belátható, már a két (piros-fekete) halmazba sorolás is karakterisztikusan eltérő megközelítésekhez vezet (vö. majdnem vízszintes és majdnem függőleges ideális tagolás a pontok számának növekedésével váltakozik.)
A hasonlóságelemzésről Feladat/kérdés: lehetséges-e, hogy minden egyes klaszterszám (objektum) egyformán ideális a szakirodalom alapján már feltárt, klaszter-idealitást mérni képes mutatószámok (indexek, attribútumok) és ezek iránya alapján? A feladatfelvetés oka: Tételezzük fel, hogy egy n-elemű (tetszőleges dimenziójú) ponthalmaz esetén a lehetséges klaszterek száma 2-től n-ig terjed és minden klaszterszám m darab mutatószámmal jellemezhető. A klaszterszám = 1 esetét nem minden mutatószám kapcsán lehet értelmezni. Így a klaszterezés keretében ab ovo nem kerül vizsgálatra, vajon szabad-e egyáltalán azt feltételezni, van-e ideális klaszterszám? Ezért belátható, hogy abban az esetben, ha minden klaszterszám az m dimenziós értékelés eredményeként előállított aggregált jóságindex tekintetében azonossá tehető, akkor a klaszterszám = 1 is egyenrangúként értelmezhető, és ez is egyenértékű a többi klaszterszámmal (egy fajta matematikai szinonimaként). Vagyis az első kísérletben keressük a „lehet-e minden klaszterszám másként egyformán értékes” kérdésre a választ, mely kérdés analógiája/szinonimája, a szabad/lehet/illik/kell-e egyáltalán klasztereket kialakítani kérdésnek? A hasonlóságelemzés (intuíciógenerálás) egy olyan matematikai apparátus 5, mely több algoritmusból áll, s melyek között az COCO-Y0 kódjelű algoritmus lépcsős függvényeket vezérlő paramétertömbbel igyekszik elérni optimalizálás keretében, hogy minden egyes, a vizsgált objektumok számának megfelelő, a nyers mutatószámokat attribútumonként helyettesítő rangsorszám helyére olyan jóságindex-réteg (csereérték) kerüljön, melyek attribútumonként szigorúan monoton módon csökkenők és összegük minden objektum esetében azonossá válik. Jelen esetben az első kísérlethez tehát 19 objektum került kiválasztásra (2 <= klaszterszám <= 20) az előző fejezetben megadott 12 R-ben kezelhető attribútum kapcsán. A modell konstansa 1000 volt, mely már kellő mozgásteret biztosít a lépcsősfüggvény paramétereit online szolgáltatásként kereső LP-nek6.
Az optimális megoldások keresése - szignifikancia vizsgálatok Az "outlier" a többitől lényegesen különböző elem. Ezek megtalálására legtöbbször a boxplot ábrát alkalmazzák. Ezen kívül vannak statisztikai tesztek is ezek kiszűrésére. Két teszt került aktiválásra az R keretében7: dixon.test grubbs.test Ezek a legnagyobb vagy a legkisebb elemet vizsgálják, vagyis azt, hogy ezek tekintetők-e outlier-nek. Számításaink során a kérdés az volt, hogy a legnagyobb érték tekinthető-e kiugrónak. A két teszt egyikével sem sikerült sehol sem szignifikáns eltérést kimutatni a maximumok esetében, még az első lépésben azonnali optimumot kimutatni képes legsűrűbb ponthalmaz esetében sem. További elméleti vizsgálódást igényel, hogy a hasonlóságelemzés által szolgáltatott becslések, melyek kapcsán elvárás, hogy a norma (1000) érték alatt eltérések összege legyen egyenlő a norma feletti eltérések összegével, képes lehet-e egyáltalán a fenti tesztek keretében szignifikánsan outlier kimutatására? 5
https://hu.wikipedia.org/wiki/Hasonl%C3%B3s%C3%A1gelemz%C3%A9s http://miau.gau.hu/myx-free/coco/index.html 7 https://cran.r-project.org/web/packages/outliers/outliers.pdf 6
Eredmények Hitelesen ideális klaszterszámok az egyre növekvő elemszámú halmazok esetén: 4
16
5 vagy 6
3
3 (7)
7. ábra: Az ideális klaszterszámok (Forrás: saját számítások, ahol a legsűrűbb adathalmaz modelljéből az antagonisták kizárása után, melyet a felső kép alapján lehet megállapítani, a legjobbnak tűnő klaszterszám a 7-es) Az 5. ábra kapcsán szemrevételezéssel (bár nem egyértelműen) feltételezhető 8-9-10 csoportos alakzatot a rendszer úm. direktben nem látja.
8. ábra: Az 5, ill. a legsűrűbb 4 modell eredője (Forrás: saját ábrázolás, ahol annál ideálisabb egy klaszterszám, minél zöldebbek a jelek ennek sorában…) Az eredő modellek (vö. 8. ábra), vagyis a szub-optimális klaszterszámok együttes értékelése (mind az 5, ill. a legsűrűbb 4 modell) nyomán az ideális klaszterszám végül is minden torzító hatás minimalizálása után a 9-es érték lett, mely megfelel) A legsűrűbb ponthalmaz kivételével a többi modell első lépésben a rendelkezésre álló mutatók egy részének felhasználása mellett a minden klaszter másként egyforma elv mellett állt ki, s csak a fennmaradó mutatók modellbe kényszerítésekor alakultak ki a fenti lefutások.
A legkevesebb elemszámútól a legnagyobb elemszámig terjedő esetekben a második lépésben felhasznált mutatószámok az alábbiak voltak: kut11: X(A7) X(A9) X(A10) X(A11) X(A12) kut12: X(A3) X(A5) X(A7) kut13: X(A4) X(A5) kut14: X(A5) X(A6) X(A7) X(A11) X(A12) kut15: nem volt 2. lépés Mint látható: az X(A7) a leggyakrabban hasznosított mutató a végső döntés kikényszerítéséhez. Vagyis a minimalizálandó s_dbw mutató tűnik a legnagyobb információértékkel bírónak az eddigi, minden részlet tekintetében függvényszimmetriavizsgálatokkal hitelesített kísérletek alapján. Az 5. ábra és az első kísérlet értelmezése elvileg elvárná, hogy itt és most kijelentésre kerüljön végre: mi is volt az 5. ábra készítésekor az egyre növekvő pontszámból álló pontfelhők inicializáló csoportjainak száma, de ez ismét oda engedi torkollni a gondolatmenetet, hogy egy már ismert válaszú kérdést miért is akarna bárki még egyszer feltenni. Ennek ellenére válaszolni a tényközlés kényszere okán muszáj: az inicializáló csoportközéppontok száma 9 volt, ahogy ezt az aggregáló értelmezés a 8. ábra alapján fel is ismerte.
Következtetések A cikk elején feltett kérdésre, vagyis az optimális klaszterszám kontextustól független mibenlétére a hasonlóságelemzés képesnek tűnik minden zavaró jel együttes értelmezése után világos válaszokkal szolgálni elvileg a teljes értelmezési palettán (vö. minden másként egyforma, alternatív győztesek/holtversenyek, ill. egyetlen egy hiteles győztes). A klasszikus szignifikancia vizsgálatok a hasonlóságelemzési becslések kapcsán nem vezetnek szignifikáns különbségek felismerésére…
2. kísérlet A második kísérlet annyiban tért el az elsőtől, hogy az egyre növekvő pontfelhők a korábbi kisebb pontfelhők minden egyes elemét minden esetben kényszerűen tartalmazták a 9 inicializáló csoportközéppont körül.
Az adatvagyonról A 2. kísérletben előállításra került különböző elemszámú pontfelhők (1000, 2000, 4000, 10000, 20000) esetében készült nyers (fekete-fehér: vö. 9. ábra) és színes (vö. 10. ábra), az Rszoftverrel csoportosított nézet, melyeket kérdőívezés keretében emberi szemekkel is értelmeztettünk, ill. az 1. kísérletnél bemutatott robot-szem logikát is alkalmaztuk az ideális klaszterszám feltárására.
9. ábra: A fekete-fehér és színes ideális klaszterszám kérdőíves felmérése (forrás: saját ábrázolás - http://miau.gau.hu/miau/193/2d_feladatlap.pdf)
A matematikai-statisztikai háttér-számításokról Munkakörnyezet: R A klaszterezés helyességét ismét csak az 1. kísérletben felsorolt indexek jellemezték.
A hasonlóságelemzésről A hasonlóságelemzés paraméterei nem változtak az első kísérlethez képest.
A kérdőíves felmérésekről A kérdőíves felmérés részleteinek és eredményeinek ismertetése meghaladja jelen cikk kereteit.
Eredmények
10. ábra: A különböző adatmennyiségek esetén előállt vélelmek összevetése (forrás: saját ábrázolás)
11. ábra: Az összes vélelem és a legritkább ponthalmaztól függetlenített vélelmek eredője (forrás: saját számítások) Mint az a 11. és 12. ábráról egyértelműen kiderül, a legritkább pontszámú adatvagyon jelentősen másként viselkedik, mint a nagyobb sűrűségű alapadatok további 4 esete. A 9 elemű klaszter mindkét esetben előkelő helyen szerepel. A kockázatok értelmezése után a leginkább ideális klaszterszám hasonlóságelemzéssel levezetve, vagyis a robot-szem által vélelmezve a 9-es érték.
Következtetések Az információhiány (vagyis a pontfelhők sűrűsége) esetén a mennyiség átcsap minőségbe elv érhető tetten. A robotszem ismét képes volt a 9 inicializáló halmazt ideális klaszterszámként beazonosítani.
3. kísérlet A harmadik kísérlet annak feltárására törekedett, hogy egyenletes eloszlású kör-jellegű, négyzet-jellegű és háromszög-jellegű pontfelhők esetén a hasonlóságelemzés automatikusan vezet-e a minden klaszterszám egyformán lehetséges következtetéshez, a hasonlóságelemzés ellenőrző kalibrációjaként értelmezve ezen speciális kihívást?
Az adatvagyonról A 3. kísérletben az alapsíkidomok (vö. 13. és 14. ábra) valószínűségi (azaz jelen esetben 1247 és 1330 háromszögpont, ill. 2355 és 2357 körpont, valamint 3000-3000 négyzetpont) alapon kialakított halmaza és egy tökéletes négyzet (51*51=2601 rácspont 0-tól 5-ig 0.1-es lépésközökkel) ponthalmazához tartozó adatokkal a már ismert menetrend került végrehajtásra. Az alábbiakban véletlenszerűen kiválasztott adathalmazok és ezek részeredményei következnek:
12. ábra: A tökéletes négyzet értelmezése előre megadott klaszterszámok alapján (kiragadott példaként a négyzetre emelt első számok esetei) – forrás: saját ábrázolás
13. ábra: A valószínűségi alakzatok és a tökéletes négyzet alapesetei az Rklaszterek 4-9-16-os alakzataival kiegészítve, ill. a háromszög esetén a 3-4-5 alakzatokkal érzékeltetve (forrás: saját ábrázolás)
A matematikai-statisztikai háttér-számításokról Munkakörnyezet: R A klaszterezés helyességét ismét csak az 1. kísérletben felsorolt indexek jellemezték.
A hasonlóságelemzésről A hasonlóságelemzés paraméterei nem változtak az első kísérlethez képest. Amennyiben az egyes „minden-klaszter-másként-egyforma” futtatások során az első részeredmény
megerősítette a hipotézist, úgy a változók feldolgozottságának szintje érzékenység-vizsgálat jelleggel két módon is értelmezésre került: szigorú elvek szerint, vagyis a default lépcsősfüggvénytől való bármilyen eltérés esetén az információt feldolgozottnak kellett tekinteni, ill. amennyiben csak egyetlen egy lépcsőszint tért el az alapbeállításoktól, akkor azt még nem kellett kizáró oknak tekinteni.
Eredmények A 15. ábra (felső rész) a valószínűségi négyzet esetén a négy klaszterre osztást tekintette a leginkább racionálisnak maximálisan szigorú és nem túlzottan szigorú adatértelmezések szerint. Mivel a négyzet negyede is négyzet, így a mintázat-felismerés elvileg a 16 klaszteres állapotban lenne ismét csak ideális: de ennek a hatásnak nincs érdemi nyoma. A relatív felívelés 18 és 19 klaszterállapotoknál érhető tetten a görbék jobbszélén. Ugyanitt (15. ábra alsó rész) a tökéletes négyzet esetében ismét csak a négy és a tizenegy klaszterre osztás dominál.
14. A valószínűségi négyzet (felül) és a tökéletes négyzet (alul) értelmezése robotszemmel (forrás: saját számítások)
A kör kapcsán a valószínűségi nézetek két véletlenszerű adatválasztás és a szigorú és megengedő modellezés eredményeként négy állapot villan fel. Mint látható, az állapotok jelentősen eltérnek egymástól. Az alaphipotézis, miszerint a kör esetén nem illene, hogy érdemi csoportképzés nyomára lehessen bukkanni, nem igaz a választott klaszter-idealitást leíró attribútumok kapcsán. A bal felső negyed közel nulla meredekségű trendvonal az egyetlen olyan jelzés, mely a véletlenszerűség irányába mutat az átlagos idealitást a normaértékre helyezve.
15. ábra: A valószínűségi kör érzékeny és megengedő értelmezése két véletlen mintán (forrás: saját számítások) A valószínűségi háromszögek kapcsán a három elemú klaszter dominál egyértelműen, bár formálisan egy egyenlő-oldalú háromszöget négy azonos háromszögre is fel lehet osztani, hasonlóan, mint három identikus deltoidra.
16. ábra: A valószínűségi háromszög két véletlenszerű értelmezése (forrás: saját számítások) Általában véve a színes klaszterábrák (4-9-16 és 3-4-5 bontásban) nem mutatnak fel semmienmű racionalitást a logikai szinten létező mintázatok felismerésében.
Következtetések A valószínűségi és a szabályos négyzetek négyfelé való ideális klaszterezése a robotszem által racionális és fraktálképzésre (az 4-16-64 jellegű részmegoldások levezetésre) alkalmas, de a 4-9-16-os szabályszerűség nem köszön vissza a klaszter-idealitás indexértékein keresztül. A valószínűségi háromszögek kapcsán a háromfelé osztás preferálása a robotszem által ismét csak racionális, de a négyfelé osztás, vagyis a háromszögek háromszögekkel való értelmezése itt sem érhető tetten, mint ahogy a 3-9 váltás sem. Ez azonban magyarázható legalább azzal, hogy a háromszög ideális harmada egy deltoid, melyre a felosztási szabály már nem örökíthető. Az azonban, hogy a négyzet esetén a 3*3 állapot nem értelmeződik és a háromszög esetén a 4 db 3-szög állapot nem azonos a 3 db deltoid állapottal, felveti a háromfelé osztás és a háromszög, mint alakzat értelmezési nehézségeit, ill. értelmezési határait. A szabályos síkidomok közül ugyanis a háromszög a legkevésbé kör, míg az oldalak számának növelésével a végtelenben kört kapunk, vagyis a négyzet szabályosabb, mint a háromszög ezen el mentén – a kört abszolút szabályosnak vélve. A kör, mint a legszabályosabbnak vélt objektum esetén a minden klaszterszám másként egyformán helyes elv nem köszön vissza egyértelműen, egyedül a véletlen minták irracionálisan nagy eltérése sugallja azt, hogy kellően sok minta esetén ez a fajta idealitáshiány mégis csak beállhat eredményként. A kör esetén a két-elemű klaszter tűnik ideálisnak a robotszem számára, ami legalább a négyzet esetén a négy, a háromszög esetén a három, s a kör esetén a kettő sorozatképzéssel egy fajta masszív logikát mutat fel. Számos párhuzamos felosztás tűnik a háromszög és a négyzet esetén is racionálisnak, azaz mintázatszerűnek. A kör esetén tulajdonképpen az akárhány klaszter is keletkezzen az mind egyforma ideális elvet csak a kör szabályossága folytán keletkező részek egyformán szabálytalan jellege támasztja alá, így maga a hipotézis sem túl erős logikai alapokon nyugszik, vagyis ennek be nem igazolódása nem tekinthető negatívumnak. A vizsgálatok mindösszesen rámutatnak arra, hogy bizonyos szabályszerűnek, azaz pl. szimmetrikusnak ható felosztások és a klaszterhelyesség mérésének indexei között antagonizmus vélelmezhető. Ez felveti a klaszterhelyességi indexek egy fajta egyoldalúságának gyanúját is.
4. kísérlet A negyedik kísérlet a második kísérlet kiterjesztéseként egy „ember-kísérlet” volt, melyben a ponthalmazokat emberi szemek által kíséreltük meg spontán módon kiértékeltetni és keresni az emberi szemek és értelmező agyak számára leginkább hiteles klaszterszámot a Kutatók Éjszakája 2014 rendezvénysorozat véletlenszerűen arra járó érdeklődői segítségével…
Az adatvagyonról A Kutatók Éjszakája keretében összesen 26 fő került felmérésre a színes (vö. 9. ábra) előstrukturált ábra alapján.
A matematikai-statisztikai háttér-számításokról Statisztikai alapszámítások Excel-ben. A 26-elemű minta kapcsán kiszámítás került az átlagos ideális klaszterszám, a medián értéke, a szórás, ill. a mediánnal való azonosság, az alatti és feletti részhalmazokba esés darabszámai, ill. a minta maximuma és minimuma.
Eredmények A humán vizuális intelligencia hermeneutikájára támaszkodva az alábbi eredmények jöttek ki:
17. ábra: a humán helyzetértékelés statisztikái Mint látható a humán intelligencia viszonylag magas tartományban, 6-11 klaszter között vélelmezte az ideális felosztást. A kerekített átlag és maga a medián megfelel a robotszem becslésének és a valóság elvárásainak. De a mediánnal való egyezés csak a 8 főt jelentett, ami a minta 31%-a. Vagyis a populáció több mint kétharmada nem lát olyan jól, mint a robotszem. A medián alatti részhalmaz nagyobb, mint a medián feletti, vagyis a tömegek inkább a kisebb komplexitású mintázatok felé hajlottak. Ez megfelel a 7. és a 8. ábra által összefoglalt képnek, melyek kapcsán az idealitás az alsóbb klaszterszám-tartományokban magasabb.
Következtetések Az emberek és a robotszem összevetésében előállni látszik a klasszikus helyzet: a robot ott, amire megtanították, az emberi képességeket meghaladó módon képes helyt állni.
Konklúziók Az ideális klaszterszám hasonlóságelemzési alapon kezelhető jelenség – az emberek több mint kétharmadát meghaladó esetben az emberi intelligenciánál jobb eredménnyel. Az adathiányos (egyre több és több pontfelhőt alkotó elemi részecskére támaszkodó) észlelésben
a mennyiség képes átcsapni minőségbe, vagyis adott szintű adathiány karakterisztikusan más értelmezést generálhat, mint egy adott adatszint feletti következtetések mibenléte.
Vita Már a hipotézisképzés is vitát generálhat. Hiszen talán nincs is válasz arra a kérdésre: mi is számít egy kör, a legszabályosabb síkidom legracionálisabb felosztásának? A cikk a robotszem fogalmának bevezetésével a látás, mint hermeneutikai probléma megalapozását igyekezett elemi értelmezési kérdések kapcsán kísérleti alapon körüljárni. A látás (vagyis a képekből következő adatok értelmezése) során felvetődik a kérdés, hogy a klaszterképzés indikátorai vajon kellően rugalmasak-e bármiféle mintázat, szimmetria-utalás felismerésére? Ha nem, vajon miért nem? Azért, amiért a Monty Hall effektus logikáját követve az ember nem képes a matematikai tudásra nem szelektáló egyedfejlődése miatt kényszerűen csökevényes ösztöneire hallgatva racionálisan feldolgozni elemi valószínűségszámítási feladatokat, vagy azért, mert a matematikai-statisztika indextára csökevényes (jelenleg még)?
Irodalom http://www.szigma.ktk.pte.hu/index.php/letoltesek/2013-xliv-evfolyam-3-4-szam/ruffferenc-klaszterszamok-meghatarozasanak-egy-lehetseges-megoldasa/download http://cran.r-project.org/src/contrib/Archive/clusterCrit/ http://www.novakoptika.hu/images/szinteveszto-teszt-szinlatas-vizsgalat.gif http://www.nig.ac.jp/color/barrierfree/images/img_b11_s.gif http://www.sehtestbilder.de/farbtafeln/images/09-666-zunge-rausstrecken.jpg https://www.r-project.org/ http://miau.gau.hu/miau/193/2d_feladatlap.pdf https://hu.wikipedia.org/wiki/Hasonl%C3%B3s%C3%A1gelemz%C3%A9s http://miau.gau.hu/myx-free/coco/index.html https://cran.r-project.org/web/packages/outliers/outliers.pdf https://www.google.hu/search?q=%22ide%C3%A1lis+klasztersz%C3%A1m%22+site%3Agau.hu