Adatbányászati algoritmusok

Adatbányászati algoritmusok Dr. Bodon Ferenc 2009. február 22.

c 2002-2008 Dr. Bodon Ferenc Copyright Ezen dokumentum a Free Software Foundation a´ltal kiadott GNU Free Documentation license 1.2-es, vagy bármely azt követ˝o verziójának feltételei alapján másolható, terjeszthet˝o és/vagy módos´ıtható. Nincs Nem V´ altoztathat´ o Szakasz, nincs C´ımlap-sz¨ oveg, nincs H´ atlap-sz¨ oveg. A licenc magyar nyel˝ u ford´ıtása a http ://hu.wikipedia.org/wiki/A GNU Szabad Dokument´ aci´ os Licenc sz¨ ovege oldalon található.

Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.2 (http://www.gnu.org/copyleft/fdl.html) or any later version published by the Free Software Foundation ; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the section entitled ”GNU Free Documentation License”.

K¨ osz¨ onetnyilv´ an´ıt´ as Ez´ uton szeretnék köszönetet mondani R´ onyai Lajosnak, a Budapesti M˝ uszaki és Gazdaságtudományi Egyetem tanárának az egész munka során ny´ ujtott seg´ıtségéért, hasznos o¨tleteiért, u ´ tmutatásaiért, de legf˝oképpen azért, mert megismertetett az adatbányászattal. Köszönöm Moln´ ar-S´ aska G´ abornak,Pint´ er M´ art´ anak, Szab´ o J´ acintnak, Hum Katalinnak és Fekete Zsoltnak az MTA-SZTAKI dolgozóinak valósz´ın˝ uségszám´ıtással kapcsolatos tanácsaikat. Köszönöm Buza Kriszti´ annak hasznos megjegyzéseit, o¨tleteit, szemléletes példáit és a kidolgozott a´bráit, amelyekkel hozzájárult a tanulmány sikeréhez. K¨ ulön köszönet illeti Czibula Veronik´ at a tanulmány többszöri, alapos a´tnézéséért és a felfedezett hibák kijav´ıtásáért. Marx D´ aniel rengeteg információval látott el a LATEX, emacs, Xfig hatékony használatát illet˝oen. Köszönöm neki a fáradozásait. Friedl Kat´ anak, ifjabb Bencz´ ur Andr´ asnak, Luk´ acs Andr´ asnak, Maricza Istv´ annak ´ es Bereczki Tam´ asnak köszönöm az értékes észrevételeit, megjegyzéseit. ´ ekes észrevételeik és konstrukt´ıv javaslataiért köszönet illeti a BME diákjait, többek Ert´ között (névsorrendben) Er˝os Pétert, Fekete Gábort, Hajnacs Zoltánt, Lajkó Pétert, Petróczi ´ amot, Sz˝oke Mónikát és Varga Dánielt. Attilát, Schlotter Ildikót, Szántó Ad´ Végezet¨ ul k¨ ulön köszönöm Kedvesemnek, M´ oninak, hogy esténként megteremtette az ´ıráshoz és gondolkodáshoz sz¨ ukséges nyugodt kör¨ ulményt, továbbá elfogadta és támogatta ezt a sok id˝ot felemészt˝o hobbimat.

Tartalomjegyz´ ek El˝oszó . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1. Bevezet´ es 1.1. Legjelent˝osebb adatbányászati feladatok 1.2. A tudásfeltárás folyamata . . . . . . . . 1.3. Adatbányászat kontra statisztika . . . . 1.4. Sikeres alkalmazások . . . . . . . . . . . 1.5. Szabványok . . . . . . . . . . . . . . . . 1.6. Adatbányászati rendszer architekt´ urája . 1.7. Adatbányászat és az etika . . . . . . . . 1.8. Az adatbányászat feltételei . . . . . . . .

. . . . . . . .

2. Alapfogalmak, jel¨ ol´ esek 2.1. Halmazok, relációk, f¨ uggvények, sorozatok 2.2. Lineáris algebra . . . . . . . . . . . . . . . 2.3. Gráfelmélet . . . . . . . . . . . . . . . . . 2.4. Matematika logika . . . . . . . . . . . . . 2.4.1. Ítéletlogika . . . . . . . . . . . . . 2.4.2. Els˝orend˝ u logika . . . . . . . . . . 2.5. Valósz´ın˝ uségszám´ıtás . . . . . . . . . . . . 2.5.1. Nevezetes eloszlások . . . . . . . . 2.5.2. Egyenl˝otlenségek . . . . . . . . . . 2.5.3. Entrópia . . . . . . . . . . . . . . . 2.6. Statisztika . . . . . . . . . . . . . . . . . . 2.6.1. Hipotézisvizsgálat . . . . . . . . . . 2.6.2. A binomiális próba . . . . . . . . . 2.6.3. Az F -próba . . . . . . . . . . . . . 2.6.4. A χ2 -próba . . . . . . . . . . . . . 2.6.5. F¨ uggetlenségvizsgálat . . . . . . . . 2.6.6. Student t-próba . . . . . . . . . . . 2.7. Algoritmus-elmélet . . . . . . . . . . . . . 2.8. Adatstrukt´ urák . . . . . . . . . . . . . . . 2.8.1. Szófák . . . . . . . . . . . . . . . . 2.8.2. Piros-fekete fák . . . . . . . . . . . 2.8.3. Hash-tábla . . . . . . . . . . . . . . 2.9. Szám´ıtógép-architekt´ urák . . . . . . . . . 2.9.1. Többszint˝ u memória, adatlokalitás ii

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2

. . . . . . . .

5 7 9 12 14 17 18 19 21

. . . . . . . . . . . . . . . . . . . . . . . .

23 23 25 25 26 26 26 26 26 27 27 28 28 29 29 29 30 31 31 31 31 33 33 33 34

2.9.2. Cs˝ovezetékes feldolgozás, elágazás-el˝orejelzés . . . . . . . . . . . . . . . . 34 3. El˝ ofeldolgoz´ as, hasonl´ os´ agi f¨ uggv´ enyek 3.1. Attrib´ utum t´ıpusok . . . . . . . . . . . . . . 3.2. Hasonlósági mértékek . . . . . . . . . . . . . 3.2.1. Bináris attrib´ utum . . . . . . . . . . 3.2.2. Kategória t´ıpus´ u attrib´ utum . . . . . 3.2.3. Sorrend t´ıpus´ u attrib´ utum . . . . . . 3.2.4. Intervallum t´ıpus´ u attrib´ utum . . . . 3.2.5. Vegyes attrib´ utumok . . . . . . . . . 3.2.6. Speciális esetek . . . . . . . . . . . . 3.3. El˝ofeldolgozás . . . . . . . . . . . . . . . . . 3.3.1. Hiányzó értékek kezelése . . . . . . . 3.3.2. Attrib´ utum transzformációk . . . . . 3.3.3. Hibás bejegyzések, a zaj eltávol´ıtása 3.3.4. Adatok elrontása, o¨sszezagyválása . . 3.3.5. Diszkretizálás . . . . . . . . . . . . . 3.3.6. Normalizálás . . . . . . . . . . . . . 3.3.7. Mintavételezés . . . . . . . . . . . . . 3.3.8. Dimenziócsökkentés . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

4. Gyakori elemhalmazok 4.1. A gyakori elemhalmaz fogalma . . . . . . . . . . . 4.2. Az Apriori algoritmus . . . . . . . . . . . . . . . 4.2.1. Jelöltek el˝oa´ll´ıtása . . . . . . . . . . . . . 4.2.2. Jelöltek támogatottságának meghatározása 4.2.3. Ritka jelöltek törlése . . . . . . . . . . . . 4.2.4. Zsákutca nyesés . . . . . . . . . . . . . . . 4.2.5. A bemenet tárolása . . . . . . . . . . . . . 4.2.6. Tranzakciók sz˝ urése . . . . . . . . . . . . . 4.2.7. Equisupport nyesés . . . . . . . . . . . . . 4.2.8. Borgelt-féle támogatottság-meghatározás . 4.2.9. Futási id˝o és memóriaigény . . . . . . . . . 4.3. Az Eclat algoritmus . . . . . . . . . . . . . . . . 4.3.1. kdci . . . . . . . . . . . . . . . . . . . . . 4.3.2. lcm . . . . . . . . . . . . . . . . . . . . . . 4.4. Az FP-growth algoritmus . . . . . . . . . . . . 4.4.1. Az FP-growth* algoritmus . . . . . . . 4.4.2. Patricia . . . . . . . . . . . . . . . . . . . 4.5. Elavult technikák . . . . . . . . . . . . . . . . . . 4.6. Mintavételez˝o algoritmus elemzése . . . . . . . . . 4.6.1. Mintavétel nagysága . . . . . . . . . . . . 4.7. Elemhalmazok Galois lezárja . . . . . . . . . . . . 4.7.1. A zárt elemhalmazok fogalma . . . . . . . 4.8. Kényszerek kezelése . . . . . . . . . . . . . . . . . 4.8.1. ExAnte . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . .

36 36 38 38 39 39 40 41 41 42 42 43 44 45 45 47 47 53

. . . . . . . . . . . . . . . . . . . . . . . .

60 60 64 65 65 69 69 69 70 71 73 74 78 80 80 80 84 85 85 85 85 86 87 88 88

4.9. Többszörös támogatottsági k¨ uszöb . . . . . . . . . . . . . . . . . . . . . . . . . 89 4.9.1. MSApriori algoritmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5. Asszoci´ aci´ os szab´ alyok 5.1. Az asszociációs szabály fogalma . . . . . . . . . . . . 5.1.1. Maximális következmény˝ u asszociációs szabály 5.1.2. Egzakt asszociációs szabályok bázisa . . . . . ´ 5.2. Erdekess´ egi mutatók . . . . . . . . . . . . . . . . . . 5.3. Szabályok f¨ uggetlensége . . . . . . . . . . . . . . . . 5.3.1. lift érték . . . . . . . . . . . . . . . . . . . . . 5.3.2. Empirikus kovariancia, empirikus korreláció . 5.3.3. A χ2 -statisztika . . . . . . . . . . . . . . . . . 5.3.4. A binomiális próba . . . . . . . . . . . . . . . 5.3.5. Fisher-féle egzakt próba . . . . . . . . . . . . 5.3.6. További mutatószámok . . . . . . . . . . . . . 5.3.7. Asszociációs szabályok rangsora . . . . . . . . ´ 5.4. Altal´ anosság, specialitás . . . . . . . . . . . . . . . . 5.5. Asszociációs szabályok a´ltalános´ıtása . . . . . . . . . 5.5.1. Hierarchikus asszociációs szabályok . . . . . . 5.5.2. Kategória asszociációs szabályok . . . . . . . . 5.6. A korreláció nem jelent implikációt . . . . . . . . . . 5.7. Asszociációs szabályok és az osztályozás . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

91 92 93 93 94 95 95 96 96 99 99 102 103 104 105 105 107 108 109

6. Oszt´ alyoz´ as 6.1. Bevezetés . . . . . . . . . . . . . . . . . . . . 6.2. Az osztályozás feladata . . . . . . . . . . . . . 6.3. k-legközelebbi szomszéd módszere . . . . . . . 6.3.1. Dimenzióa´tok - Curse of dimensionality 6.3.2. A legközelebbi szomszéd érzékenysége . 6.3.3. Az osztályozás felgyors´ıtása . . . . . . 6.4. Lineárisan szeparálható osztályok . . . . . . . 6.4.1. Perceptron tanulási szabály . . . . . . 6.4.2. Winnow módszer . . . . . . . . . . . . 6.4.3. Rocchio-eljárás . . . . . . . . . . . . . 6.4.4. Lineáris regresszió . . . . . . . . . . . . 6.4.5. Logisztikus regresszió . . . . . . . . . . 6.5. Mesterséges neurális hálózatok . . . . . . . . . 6.6. Döntési szabályok . . . . . . . . . . . . . . . . 6.6.1. Szabályhalmazok és szabálysorozatok . 6.6.2. Döntési táblázatok . . . . . . . . . . . 6.6.3. Az 1R algoritmus . . . . . . . . . . . . 6.6.4. A Prism módszer . . . . . . . . . . . . 6.7. Döntési fák . . . . . . . . . . . . . . . . . . . 6.7.1. Döntési fák és döntési szabályok . . . . 6.7.2. A döntési fa el˝oa´ll´ıtása . . . . . . . . . 6.7.3. Az ID3 algoritmus . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

111 111 112 114 115 116 117 120 121 122 122 123 125 128 131 133 133 134 135 136 137 138 140

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

6.7.4. Feltételek a csomópontokban . . . . . . . . . . . . . . . . . . . . . . 6.7.5. Vágási f¨ uggvények . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.7.6. Továbbfejlesztések . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.7.7. S´ ulyozott divergenciaf¨ uggvények alapján definiált vágási f¨ uggvények 6.7.8. Döntési fák a´brázolása . . . . . . . . . . . . . . . . . . . . . . . . . 6.7.9. Hanyag döntési fák . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.8. Bayesi hálózatok . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.8.1. Na´ıv Bayes-hálók . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.8.2. Na´ıv Bayes-hálók és a logisztikus regresszió kapcsolata . . . . . . . 6.8.3. Bayes hihet˝oségi hálók . . . . . . . . . . . . . . . . . . . . . . . . . 6.9. Osztályozók kombinálása . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.9.1. Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.9.2. Randomizálás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.9.3. Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.10. Osztályozók kiértékelése . . . . . . . . . . . . . . . . . . . . . . . . . . . . ´ 6.10.1. Ertekez´ es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.10.2. Hiba mérése regresszió esetében . . . . . . . . . . . . . . . . . . . . 6.10.3. Hiba mérése valósz´ın˝ uségi döntési rendszerek esetén . . . . . . . . . 6.10.4. Osztályozók hatékonyságának mutatószámai . . . . . . . . . . . . . 6.11. Osztályozók o¨sszehasonl´ıtása . . . . . . . . . . . . . . . . . . . . . . . . . . 7. Klaszterez´ es 7.1. Egy lehetetlenség-elmélet . . . . . . . . . . . . . . . . 7.2. Hasonlóság mértéke, adatábrázolás . . . . . . . . . . 7.3. A klaszterek jellemz˝oi . . . . . . . . . . . . . . . . . . 7.4. A klaszterezés jósága” . . . . . . . . . . . . . . . . . ” 7.4.1. Klasszikus mértékek . . . . . . . . . . . . . . 7.4.2. Konduktancia alap´ u mérték . . . . . . . . . . 7.5. Klaszterez˝o algoritmusok t´ıpusai . . . . . . . . . . . . 7.6. Particionáló eljárások . . . . . . . . . . . . . . . . . . 7.6.1. Forgy k-közép algoritmusa . . . . . . . . . . . 7.6.2. A k-medoid algoritmusok . . . . . . . . . . . . 7.7. Hierarchikus eljárások . . . . . . . . . . . . . . . . . 7.7.1. Single-, Complete-, Average Linkage Eljárások 7.7.2. Ward módszere . . . . . . . . . . . . . . . . . 7.7.3. A BIRCH algoritmus . . . . . . . . . . . . . . 7.7.4. A CURE algoritmus . . . . . . . . . . . . . . 7.7.5. A Chameleon algoritmus . . . . . . . . . . . . 7.8. S˝ ur˝ uség-alap´ u módszerek . . . . . . . . . . . . . . . . 7.8.1. A DBSCAN algoritmus . . . . . . . . . . . . . 8. Id˝ osorok elemz´ ese

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

141 141 143 144 146 146 146 147 148 150 151 151 151 151 151 153 154 154 155 157

. . . . . . . . . . . . . . . . . .

159 . 160 . 162 . 163 . 164 . 165 . 166 . 168 . 169 . 170 . 170 . 172 . 172 . 173 . 173 . 174 . 176 . 176 . 176 178

9. Sz¨ ovegb´ any´ aszat (Tikk Domonkos) 9.1. Dokumentumok el˝ofeldolgozása . . . . . . . . . . . . . . . . . . 9.1.1. A dimenziószám csökkentése . . . . . . . . . . . . . . . . 9.1.2. Hatékonyság mérése . . . . . . . . . . . . . . . . . . . . 9.2. Osztályozás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.1. Osztályozás strukturálatlan kategóriák rendszerébe . . . 9.2.2. Hierarchikus osztályozás . . . . . . . . . . . . . . . . . . 9.3. Dokumentumok csoportos´ıtása . . . . . . . . . . . . . . . . . . . 9.3.1. Szövegklaszterezés jellemz˝o feladatai és problémái . . . . 9.3.2. Reprezentáció . . . . . . . . . . . . . . . . . . . . . . . . 9.3.3. Hatékonyság mérése . . . . . . . . . . . . . . . . . . . . 9.3.4. Szövegklaszterez˝o eljárások . . . . . . . . . . . . . . . . . 9.3.5. Dokumentumgy˝ ujtemények . . . . . . . . . . . . . . . . 9.4. Kivonatolás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4.1. Az o¨sszegzéskész´ıt˝o eljárások felosztása . . . . . . . . . . 9.4.2. A kivonatolás hatékonyságának mérése . . . . . . . . . . 9.4.3. Mondatkiválasztásnál használt jellemz˝ok . . . . . . . . . 9.5. A legfontosabb kivonatoló eljárások . . . . . . . . . . . . . . . . 9.5.1. A klasszikus módszer . . . . . . . . . . . . . . . . . . . . 9.5.2. TF-IDF alap´ u módszer . . . . . . . . . . . . . . . . . . . 9.5.3. Csoportos´ıtás alap´ u módszerek . . . . . . . . . . . . . . 9.5.4. Gráfelméleti megközel´ıtések . . . . . . . . . . . . . . . . 9.5.5. SVD használata a kivonatolásban . . . . . . . . . . . . . 9.5.6. Esettanulmány : böngészés támogatása kivonatolással kézi 9.6. Egyéb szövegbányászati feladatok . . . . . . . . . . . . . . . . . 9.6.1. Információkinyerés . . . . . . . . . . . . . . . . . . . . . 9.6.2. Témakövetés . . . . . . . . . . . . . . . . . . . . . . . . 9.6.3. Fogalomtárs´ıtás . . . . . . . . . . . . . . . . . . . . . . . 9.6.4. Szöveges információk vizualizálása . . . . . . . . . . . . . 9.6.5. Kérdés-megválaszolás . . . . . . . . . . . . . . . . . . . . 9.7. Nyelvfeldolgozás és szövegbányászat . . . . . . . . . . . . . . . . 9.7.1. Szövegbányászat magyarul . . . . . . . . . . . . . . . . . 9.8. Linkgy˝ ujtemény . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.8.1. Tesztkorpuszok . . . . . . . . . . . . . . . . . . . . . . . 9.8.2. Cikk- és linkgy˝ ujtemények . . . . . . . . . . . . . . . . . 9.8.3. Szövegbányászati szoftverek . . . . . . . . . . . . . . . . 9.8.4. Néhány magyar vonatkozás´ u eredmény és projekt . . . .

179 . . . . . . . . . 180 . . . . . . . . . 182 . . . . . . . . . 184 . . . . . . . . . 184 . . . . . . . . . 185 . . . . . . . . . 191 . . . . . . . . . 194 . . . . . . . . . 195 . . . . . . . . . 195 . . . . . . . . . 196 . . . . . . . . . 196 . . . . . . . . . 198 . . . . . . . . . 199 . . . . . . . . . 199 . . . . . . . . . 201 . . . . . . . . . 201 . . . . . . . . . 202 . . . . . . . . . 202 . . . . . . . . . 203 . . . . . . . . . 204 . . . . . . . . . 205 . . . . . . . . . 206 szám´ıtógépeken 206 . . . . . . . . . 208 . . . . . . . . . 209 . . . . . . . . . 209 . . . . . . . . . 209 . . . . . . . . . 210 . . . . . . . . . 210 . . . . . . . . . 211 . . . . . . . . . 211 . . . . . . . . . 212 . . . . . . . . . 212 . . . . . . . . . 212 . . . . . . . . . 213 . . . . . . . . . 213

10.Webes adatb´ any´ aszat 10.1. Oldalak rangsorolása . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1.1. Az egyszer˝ u Page Rank . . . . . . . . . . . . . . . . . . . . . 10.1.2. Az igazi Page Rank . . . . . . . . . . . . . . . . . . . . . . . 10.2. Webes keresés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.1. Gy˝ ujt˝olapok és Tekintélyek – a HITS algoritmus . . . . . . . 10.2.2. A SALSA módszer (Jakabfy Tamás) . . . . . . . . . . . . . 10.2.3. Gy˝ ujt˝olapok, Tekintélyek és véletlen séták (Jakabfy Tamás)

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

215 . 215 . 216 . 219 . 219 . 219 . 223 . 225

10.2.4. Automatikus forrás el˝oa´ll´ıtó - Gy˝ ujt˝olapok és Tekintélyek módos´ıtásai . . 226 10.2.5. Gy˝ ujt˝olapok és Tekintélyek módszerének hátrányai . . . . . . . . . . . . 227 11.Gyakori mint´ ak kinyer´ ese 11.1. A gyakori minta defin´ıciója . . . . . . . . . . . . . . 11.1.1. Hatékonysági kérdések . . . . . . . . . . . . 11.2. További feladatok . . . . . . . . . . . . . . . . . . . 11.2.1. Nem b˝ov´ıthet˝o és zárt minták . . . . . . . . 11.2.2. Kényszerek kezelése . . . . . . . . . . . . . . 11.2.3. Többszörös támogatottsági k¨ uszöb . . . . . 11.2.4. Dinamikus gyakori mintakinyerés . . . . . . 11.3. Az algoritmusok jellemz˝oi . . . . . . . . . . . . . . 11.4. Az APRIORI módszer . . . . . . . . . . . . . . . . 11.4.1. Jelöltek el˝oa´ll´ıtása . . . . . . . . . . . . . . 11.4.2. Zárt minták kinyerése, az APRIORI-CLOSE 11.5. Sorozat t´ıpus´ u bemenet . . . . . . . . . . . . . . . . 11.5.1. Apriori . . . . . . . . . . . . . . . . . . . . 11.5.2. Zaki módszere . . . . . . . . . . . . . . . . . 11.5.3. Mintanövel˝o algoritmusok . . . . . . . . . . 11.5.4. Kétlépcs˝os technikák . . . . . . . . . . . . . 11.5.5. A zárt minták törékenysége” . . . . . . . . ” 11.5.6. Dinamikus gyakori mintabányászat . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . algoritmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . .

229 . 230 . 231 . 232 . 232 . 233 . 234 . 235 . 235 . 235 . 236 . 238 . 239 . 239 . 241 . 243 . 245 . 247 . 248

12.Gyakori sorozatok, bool formul´ ak ´ es epiz´ odok 12.1. Gyakori sorozatok kinyerése . . . . . . . . . . . . . . 12.1.1. A Gyakori Sorozat Fogalma . . . . . . . . . . 12.1.2. APRIORI . . . . . . . . . . . . . . . . . . . . 12.1.3. Elemhalmazokat tartalmazó gyakori sorozatok 12.1.4. Sorozat t´ıpus´ u minta a´ltalános´ıtása . . . . . . 12.2. Gyakori bool formulák . . . . . . . . . . . . . . . . . 12.3. Gyakori epizódok . . . . . . . . . . . . . . . . . . . . 12.3.1. A támogatottság defin´ıciója . . . . . . . . . . 12.3.2. APRIORI . . . . . . . . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

250 250 251 251 252 256 257 257 258 259

13.Gyakori f´ ak ´ es fesz´ıtett r´ eszgr´ afok 13.1. Az izomorfia problémája . . . . . 13.2. A gyakori gráf fogalma . . . . . . 13.3. gyakori gyökeres fák . . . . . . . 13.3.1. TreeMinerH . . . . . . . . 13.3.2. TreeMinerV . . . . . . . . 13.4. Gyakori részfák . . . . . . . . . . 13.5. A gyakori fesz´ıtett részgráfok . . 13.5.1. Az AcGM algoritmus . . . 13.6. A gyakori részgráfok keresése . . 13.6.1. Az FSG algoritmus . . . . 13.6.2. gSpan . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

262 262 264 265 266 267 269 269 269 272 272 273

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

1 14.Adatb´ any´ aszat a gyakorlatban 14.1. Felhasználási ter¨ uletek . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.1.1. Az u ¨ gyfél életciklusa . . . . . . . . . . . . . . . . . . . . . . . . 14.1.2. Kereskedelem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.1.3. Pénz¨ ugy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.1.4. Biológia és Orvostudomány . . . . . . . . . . . . . . . . . . . . 14.2. Az adatbányászat bölcs˝oje : az elektronikus kereskedelem (e-commerce) 14.3. Adatbányász szoftverek . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.3.1. Adatbányászati rendszerek tulajdonságai . . . . . . . . . . . . . 14.3.2. Esettanulmányok röviden . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

276 276 276 277 278 279 280 281 282 283

F¨ uggel´ ek 289 F¨ uggelék A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289

El˝ osz´ o A 90-es években a tárolókapacitások méretének igen er˝oteljes növekedése, valamint az a´rak nagymérték˝ u csökkenése1 miatt az elektronikus eszközök és adatbázisok a hétköznapi életben is mind inkább elterjedtek. Az egyszer˝ u és olcsó tárolási lehet˝oségek a nyers, feldolgozatlan adatok tömeges méret˝ u felhalmozását eredményezték, ezek azonban a közvetlen visszakeresésen és ellen˝orzésen k´ıv¨ ul nem sok egyéb haszonnal jártak. A ritkán látogatott adatokból adat temet˝ok” ” (data tombs) alakultak ki [73], amelyek tárolása haszon helyett költséget jelentett. Ekkor még nem a´lltak rendelkezésre olyan eszközök, amivel az adatokba a´gyazott értékes információt ki tudtak nyerni. Következésképpen a fontos döntések a döntéshozók megérzésein alapultak, nem pedig az információ-gazdag adatokon. Jól jellemzi ezt a helyzetet John Naisbitt h´ıres mondása, miszerint We are drowning in information, but starving for knowledge” (Megfulladunk az ” információtól, miközben tudásra éhez¨ unk). Egyre több ter¨ uleten mer¨ ult fel az igény, hogy az adathalmazokból a hagyományosnál a´rnyaltabb szerkezet˝ u információkat nyerjenek ki. A hagyományos adatbázis-kezel˝o rendszerek – a közvetlen keres˝okérdéseken k´ıv¨ ul, illetve az alapvet˝o statisztikai funkciókon t´ ul (átlag, szórás, maximális és minimális értékek meghatározása) – komplexebb feladatokat egyáltalán nem tudtak megoldani, vagy az eredmény kiszám´ıtása elfogadhatatlanul hossz´ u id˝obe telt. A sz¨ ukség egy u ´ j tudományter¨ uletet keltett életre, az adatbányászatot, amelynek célja : hasznos, látens ” információ kinyerése az adatokból”. Az adatbányászati algoritmusokat immár arra tervezték, hogy képesek legyenek az a´rnyaltabb információ kinyerésére akár o´riási méret˝ u adatbázisok esetén is. Az adatbányászat, mint o¨nálló tudományter¨ ulet létezésér˝ol az 1980-as évek végét˝ol beszélhet¨ unk. Kezdetben a k¨ ulönböz˝o heurisztikák, a matematikailag nem elemzett algoritmusok domináltak. A 90-es években megjelent cikkek többségét legfeljebb elhinni lehetett, de semmiképpen sem kétely nélk¨ ul meggy˝oz˝odni az egyes ´ırások helytállóságáról. Az algoritmusok futási idejér˝ol és memóriaigényér˝ol a´ltalában felsz´ınes elemzéseket és tesztelési eredményeket olvashattunk. Az igényes olvasóban mindig maradt egy-két kérdés, amire eml´ıtés szintjén sem talált választ. Bizonyos káosz uralkodott, amiben látszólag mindenre volt megoldás, a´m ezek a megoldások többnyire részlegesek voltak, tele a legk¨ ulönböz˝obb hibákkal. A XXI. századba való belépéssel a kutatók körében egyre nagyobb népszer˝ uségnek kezdett o¨rvendeni az adatbányászat. Ennek két oka van. Egyrészt a növekv˝o versenyhelyzet miatt a piaci élet szerepl˝oinek o´riási az igénye az adatbázisokban megb´ ujó hasznos információkra. A növekv˝o igény növekv˝o kutatói beruházásokat indukált. Másrészt, az adatbányászat a maga nehézségével, multi-diszciplináris voltával a kutatni, gondolkodni és u ´ jszer˝ u problémákat megoldani vágyó igényét tökéletesen kielég´ıti. 1

A t´ arol´ okapacit´ as n¨ ovekedése még Moore j´ oslat´ at is j´ ocsk´ an fel¨ ulm´ ulja. Az ut´ obbi 15 év alapj´ an ugyanis a t´ arol´ okapacit´ as 9 h´ onaponként dupl´ az´ odik meg [137]

2

3 Sorra sz¨ ulettek meg a sz´ınvonalas munkák, elemzések, o¨sszehasonl´ıtások, mint tiszta irányvonalak rajzolódtak ki a káoszban. A megoldatlan, nyitott problémákra még mindig keress¨ uk a választ, ´ıgy valósz´ın˝ uleg az adatbányászat diadalmenete még sokáig töretlen marad. Ez a jegyzet a jelenlegi adatbányászati problémákról és az azokat megoldó algoritmusokról szól. A ter¨ uletek a´ttekintése mellett az algoritmusok mélyebb szint˝ u megismerése is a cél. Az ´ırás informatikus beáll´ıtottság´ u olvasóknak kész¨ ult. Feltételezz¨ uk, hogy az olvasó tisztában van algoritmus- [101] és adatbázis-elméleti alapokkal, továbbá nem ismeretlen ter¨ ulet számára a valósz´ın˝ uségszám´ıtás [9, 57] és a lineáris algebra [143] sem. A jegyzet célja az, hogy az adatbányászati apparátus olyan megismerését ny´ ujtsa, melynek seg´ıtségével az olvasó sikerrel oldja meg az egyre több ter¨ uleten felbukkanó u ´ jabb és u ´ jabb adatbányászati problémákat. Algoritmikus adatbányászatról ´ırunk, ezért azon mesterséges intelligencia ter¨ uletéhez tartozó eszközök (mesterséges neurális hálózatok, genetikus algoritmusok és fuzzy rendszerek), amelyekr˝ol azt tartják, hogy az adatbányászatban is használhatók, kevés hangs´ ulyt kapnak. A jegyzet legfrissebb változata letölthet˝o a http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat c´ımen található oldalról. A jegyzet nem végleges ! Folyamatosan b˝ov¨ ul, változik. Egyes részek kisebb s´ ulyt kapnak, ¨ ommel fogadok bármilyen észrevételt, javaslatot akár mások viszont jobban részletezettek. Or¨ helyes´ırási, stilisztikai vagy tipográfiai hibára vonatkozóan. Ezeket kérném, hogy a [email protected] c´ımre k¨ uldjék. A tanulmány a Budapesti M˝ uszaki és Gazdaságtudományi Egyetem m˝ uszaki informatikusok számára ki´ırt Adatb´ any´ aszati algoritmusok c´ım˝ u tárgy hivatalos jegyzete. Adatbányászatból laborgyakorlatok is vannak, amelynek során a hallgatók a weka szabadon hozzáférhet˝o szoftvert ismerik meg. Ezért találkozunk a jegyzetben lépten-nyomon weka használati utas´ıtásokkal. Az ´ırás LATEX-ben kész¨ ult, eleinte a kile, kés˝obbiekben az emacs szövegszerkeszt˝o seg´ıtségével. Egyes a´brák Xfig-el, mások a pst-node csomaggal lettek rajzolva. Az egész munkához az UHU-linux operációs rendszer (http://www.uhulinux.hu) ny´ ujtotta a stabil és biztonságos hátteret.

Aj´ anlott irodalom El˝oször azt kell tisztáznunk, hogy mit˝ol jó egy adatbányászatról szóló könyv. A rengeteg kutatás, projekt, konferencia és folyóirat hatására sok adatbányászati módszert fejlesztettek ki. Mintha elmozdultunk volna a Megfulladunk az információtól, miközben tudásra ” éhez¨ unk” kórból a Megfulladunk az elemz˝o eszközökt˝ol, miközben tudásra éhez¨ unk”. Egy ” rossz adatbányászati könyv pusztán a módszerek ismertetésér˝ol szól. Olyan érzés¨ unk támad, mintha a kutatók már mindent megoldottak volna és b˝ovelked¨ unk a jobbnál-jobb eszközökben. Ugyanakkor a megoldások lógnak a leveg˝oben. Egy jó könyv ezzel szemben keretbe foglalja az eljárásokat, megmutatja hogyan jutunk el az egyik módszerb˝ol a másikba, mi a közös és mit˝ol k¨ ulönböznek egymástól a módszerek. Mivel

4 nincsen tökéletes adatbányászati eljárás, ezért ki kell térni a feladatok nehézségére a módszerek korlátaira és hátrányaira is. Ezen szempontok alapján osztályozzuk (egyt˝ol o¨tig) a következ˝o két részben felsorolt könyveket. A pontok szubjekt´ıvek és e tanulmány szerz˝ojének véleményét t¨ ukrözik.

Magyar nyelv˝ u irodalom Adatbányász témában az els˝o magyar nyelv˝ u könyv Pieter Adriaans and Dolf Zantinge Adatb´ any´ aszat (1 pont) c´ım˝ u könyve [2] volt. Mára a könyv elavult ezért nem ajánljuk senkinek. ´ ASZAT ´ 2004-ben jelent meg a magyar nyelv˝ u ford´ıtása [72], ADATBANY – Koncepci´ ok és technik´ ak (3 pont) c´ımmel Jiawei Han és Micheline Kamber nagy siker˝ u könyvének [73]. Azóta megjelent az angol nyel˝ u könyv második kiadása, ezért ha tehetj¨ uk inkább ezt olvassuk. A legjobb magyar nyelv˝ u adatbányászatról szóló könyvnek a Dr. Abonyi János a´ltal szerkesztett Adatb´ any´ aszat a hatékonys´ ag eszk¨ oze (4 pont) c´ım˝ u könyvet [86] tekintj¨ uk. Remek kiegész´ıtése a jelen tanulmánynak. A könyvben helyet kapnak olyan témák, amelyekr˝ol ebben a tanulmányban nem esik szó (pl. adattárházak, id˝osorok, regressziós technikák) habár fontos lenne. Nagyon hasznos, hogy a módszerek bemutatása után a szerz˝ok kitérnek arra, hogy a weka szoftvert hogyan kell beáll´ıtani a módszer használatához. Mi is az o˝ példájukat követj¨ uk. Az adatbányászat rokonter¨ uletér˝ol ´ırt könyvet Tikk Domonkos Sz¨ ovegb´ any´ aszat (5 pont) c´ımmel. Kit˝ un˝o ´ırás, ajánljuk mind informatikus hallgatóknak és kutatóknak, mind a téma iránt érdekl˝od˝oknek.

Angol nyelv˝ u irodalom Eibe Frank és Ian H Witten ´ırta az egyik legnépszer˝ ubb adatbányászati könyvet Data Mining : Practical Machine Learning Tools and Techniques (5 pont) c´ımmel [183]. Fontos megeml´ıten¨ unk, hogy Eibe Frank a weka egyik f˝ofejleszt˝oje, ennek megfelel˝oen a könyv egy része a weka használatát tárgyalja. A könyv egyszer˝ uségre törekszik, ker¨ uli a képleteket, a le´ırások érthet˝oek és világosak. Az adatbányászati cikkekkben gyakran az ellenkez˝oje figyelhet˝o meg ; egyszer˝ u elméleteket és megoldásokat elbonyol´ıtanak, u ´ j terminológiát vezetnek be, t´ ulzott formalizmust használnak és elvesznek a figyelemelterel˝o részletekben, mindez azért, hogy ne lássuk a fától az erd˝ot, a sok sortól a lényeget. Ebben a könyvben az ellenkez˝o törekvés figyelhet˝o meg, legfontosabb a lényeg megértetése. Ha erre egy példa a legjobb eszköz, akkor el is hagyják a formalizmust, a prec´ız képleteket. Ajánljuk a könyvet ezért azoknak is, akik nem anniyra járatosak a matematikában, viszont alkalmazni szeretnék az adatbányászati eszközöket. Másik kiemelked˝o munka Trevor Hastie, Robert Tibshirani és Jerome Friedman a´ltal szerkesztett The Elements of Statistical Learning : Data Mining, Inference and Prediction (5 pont) c´ım˝ u rendk´ıv˝ ul igényes könyv [75]. Az el˝oz˝o könyvvel szemben ez a könyv már komoly matematikai felkész¨ ultséget feltételez. Aki viszont rendelkezik statisztikai alapokkal, annak kétségk´ıv¨ ul hasznos lesz e olvasmány.

1. fejezet Bevezet´ es A szám´ıtógép, korunk legdics˝obb találmánya, rohamléptekkel hód´ıt teret magának az élet minden ter¨ uletén. Egy generáció alatt nélk¨ ulözhetetlenné vált, amit sz¨ uleink még el sem tudtak képzelni, számunkra már elválaszthatatlanná vált munkánktól és szórakozásunktól egyaránt. Az Internet elterjedésével még intenz´ıvebben érzékelhet˝o a szám´ıtógép térhód´ıtása. A ¨ világon az egyik legnagyobb problémát, a távolságot hidalta a´t. Uzleti és magáncél´ u érintkezések váltak lehet˝ové rövidebb id˝o alatt és hatékonyabban, mint valaha. Adatok millióit kezelik és száll´ıtják a szám´ıtógépes rendszerek. Az információkon alapuló döntéshozatal ideje lerövid¨ ult, hiszen a hozzáférés könnyebbé és gyorsabbá vált. Az u ¨ zleti élet szerepl˝oinek élete is felgyorsult. Ma a vállalatok léte m´ ulhat az információk gyors és pontos begy˝ ujtésén, elemzésén, a rugalmas fejl˝odésen, vaAz angol tud´ osok azt ” lamint az innováción. Egyre több fels˝o vezet˝o ismeri fel, a ´llap´ıtott´ ak meg, hogy aki hogy az Internet, az adatok elektronikus tárolása a vállalat sokat j´ ar disco-ba, annak naszolgálatába a´ll´ıtható. Az adatok azonban o¨nmagukban nem gyobb val´ osz´ın˝ uséggel alakul ki hasznosak, hanem a bel˝ol¨ uk kinyerhet˝o, a vállalat igényeihez asztm´ aja.” Forrás : Sláger rádió, igazodó, azt kielég´ıt˝o információkra lenne sz¨ ukség. Ez egy 2007. október 2., 8 o´ra 26 perc u ´ jabb sz¨ ukségletet teremt : egy olyan eszköz iránti igényt, ami képes arra, hogy információszerzés céljából elemezze a nyers adatokat. Ez az u ´ j eszköz az adatb´ any´ aszat. Adatbányászati (data mining) algoritmusokat az adatbázisból történ˝o tudásfeltárás (knowledge discovery in databases) során alkalmaznak. A tudáskinyerés adatbázisokból egy olyan folyamat, melynek során érvényes, u ´ jszer˝ u, lehet˝oleg hasznos és végs˝o soron érthet˝o mintákat fedez¨ unk fel az adatokban. Ezt gyakran megtehetj¨ uk k¨ ulönböz˝o lekérdezések eredményeinek vizsgálatával, azonban ez a megoldás lass´ u, drága és nem elég a´tfogó. Nem is beszélve arról, hogy az emberi szubjektivitás sokszor hibás, továbbá az adatbázisok olyan nagyok lehetnek, hogy egyes lekérdezések elfogadhatatlanul lassan futnak le. Jogos tehát az igény, hogy a legismertebb, leggyakoribb elemzést´ıpusokhoz speciális módszereket, algoritmusokat fejlesszenek ki, amelyek gyorsan és pontosan szolgáltatnak egy objekt´ıv képet az adatbázisokban található kincsr˝ol”. ” Sokféleképpen definiálták az adatbányászatot. Felsorolunk néhányat a legismertebbek köz¨ ul kiemelve a kulcsszavakat : – The nontrivial extraction of implicit, previously unknown, and potentially useful infor” mation from data” (Piatetsky Shapiro) 5

´ 1. FEJEZET. BEVEZETES

6 Heurisztika

Statisztika Algoritmus elm. Adatbázis elm. Gráfelmélet Lineáris alg.

-

?

Matematika

- G´ epi

tanulás

-

?

Mesterséges Intelligencia ?

¨ Uzlet Marketing

6

Biológia

Alkalmazás

-6 -

Vizualizáció

?

Telekommunikáció Csillagászat

Adatbányászat 1.1. a´bra. Az adatbányászat kialakulása – . . . the automated or convenient extraction of patterns representing knowledge implicitly ” stored or captured in large databases, data warehouses, the Web, . . . or data streams.” (Han [73], xxi oldal) – . . . the process of discovering patterns in data. The process must be automatic or (more ” usually) semiautomatic. The patterns discovered must be meaningful. . . ” (Witten [183], 5. oldal) – . . . finding hidden information in a database.” (Dunham [48], 3. oldal) ” – . . . the process of employing one or more computer learning techniques to automatically ” analyze and extract knowledge from data contained within a database.” (Roiger, 4. oldal) Egyesek szerint az adatbányászat, mint megnevezés némiképp szerencsétlen [72] . Ha szénbányászatról beszél¨ unk, a szén bányászására gondolunk. Ezzel ellentétben adatbányászat esetén nem adatot bányászunk, hanem — amint a példákban is láttuk — a rejtett és számunkra hasznos tud´ ast (információt), o¨sszef¨ uggéseket keress¨ uk egy nagy adathalmazban ( adathegy” ben”). Az adatbányászatot az u ¨ zleti élet és a marketing keltette életre. Még ma is ezek az adatbányászat f˝o mozgató rugói. Szerencsére az adatbányászat lehet˝oségeit egyre több ter¨ uleten ismerik fel, melynek eredményeként az alapkutatásoknak is egy fontos eszköze lett. Alkalmazzák az orvosbiológiában, genetikában, távközlésben, csillagászatban, . . . Az adatbányászat egy multi-diszciplináris ter¨ ulet. Az 1.1 a´brán látható, hogy mely tudományter¨ uletek eszközeit használja az adatbányászat. Az adatbányászat több hangs´ ulyt fektet az algoritmusokra, mint a statisztika, és többet a modellekre, mint a gépi tanulás eszközei (pl. neurális hálózatok). Mára az adatbányászat akkora ter¨ uletté n˝otte ki magát, hogy szinte lehetetlen a´tlátni magas sz´ınvonalon az egészet.


7

1.2. a´bra. Klaszterezés (bal oldali a´bra) és k¨ ulönc pontok keresése (jobb oldali a´bra)

1.1. Legjelent˝ osebb adatb´ any´ aszati feladatok Feltehetj¨ uk, hogy az adatbázis valamilyen objektumok (¨ ugyfelek, betegségek, vásárlók, telekommunikációs események, . . . ) k¨ ulönböz˝o tulajdonságait ´ırja le. A tulajdonság helyett gyakran használjuk majd az attrib´ utum szót1 . Az adatbányászat feladata a rejtett o¨sszef¨ uggések, kapcsolatok felder´ıtése. Az o¨sszef¨ uggések t´ıpusa szerint a következ˝o adatbányászati alapproblémákról beszélhet¨ unk : Gyakori mint´ ak kinyer´ ese : Adott objektumok egy sorozata. Célunk megtalálni a gyakran el˝oforduló (rész-) objektumokat. Az objektumok lehetnek elemhalmazok vagy sorozatok, esetleg epizódok (részben rendezések), gráfok stb. Attrib´ utumok k¨ oz¨ otti kapcsolatok : Gyakran hasznos, ha az objektumokra u ´ gy tekint¨ unk, mint az attrib´ utumok megvalósulásaira és keress¨ uk az o¨sszef¨ uggéseket az attrib´ utumok között. Többféle o¨sszef¨ uggés létezik. Ilyenek például az asszociációs-, korrelációs szabályok, a funkcionális f¨ ugg˝oségek és hasonlóságok. Az oszt´ alyoz´ as is attrib´ utumok közötti o¨sszef¨ uggések felfedezésére szolgál. Az osztályozásnál egy kit¨ untetett attrib´ utum értékét kell megjósolnunk a többi attrib´ utum értéke alapján. Ezt egy modell felép´ıtésével teszi. Leggyakrabban a modell egy döntési fa, de lehet if-then szabályok sorozata, valamilyen matematikai formula, vagy akár egy neurális hálózat stb. is. Klaszterez´ es : Objektumokat el˝ore nem definiált csoportokba (klaszterekbe) kell sorolnunk u ´ gy, hogy az egy csoportba tartozó objektumok hasonlóak legyenek, m´ıg a k¨ ulönböz˝o csoportba ker¨ ultek k¨ ulönbözzenek egymástól. Két pont hasonlóságát egy el˝ore megadott (távolságszer˝ u) f¨ uggvény seg´ıtségével szokás értelmezni. Klaszterezésre mutat példát az 1.2 a´bra els˝o fele. Sorozatelemz´ es : A sorozatelemzésbe többféle adatbányászati feladat tartozik. Kereshet¨ unk egymáshoz hasonl´ıtó (akár rész-) sorozatokat. Ezen k´ıv¨ ul elemezhetj¨ uk a sorozat alakulását, és k¨ ulönböz˝o regressziós módszerekkel próbálhatjuk megjósolni a jöv˝obeli valósz´ın˝ uleg el˝oforduló eseményeket. 1

A k¨ ozgazd´ aszok a tulajdons´ ag helyett ismérvet, valamely tulajdons´ ag konkrét értéke helyett ismérv v´ altozatot mondanak.


8

Elt´ er´ eselemz´ es : Azokat az elemeket, amelyek nem felelnek meg az adatbázis a´ltalános jellemz˝oinek, tulajdonságaik nagy mértékben eltérnek az a´ltalánostól k¨ ul¨ onc pontoknak nevezz¨ uk. A legtöbb adatbányászati algoritmus az ilyen k¨ ulönc pontoknak nem tulajdon´ıt nagy jelent˝oséget, legtöbbször zajnak vagy kivételnek kezeli o˝ket. Azonban az élet egyre több ter¨ uletén mer¨ ul fel az igény, hogy éppen az ilyen k¨ ulönc pontokat találjuk meg. Eltéréselemzés f˝obb alkalmazási ter¨ ulete a másolás-, koppintáskeresés, továbbá a csalások, visszaélések, v´ırusok, hackertámadások kisz˝ urése. K¨ ulönc pontok kezelésére mutat példát az 1.2 a´bra második fele. Webes adatb´ any´ aszat : Az Interneten o´riási adattömeg található, ´ıgy az Interneten alapuló információ-kinyer˝o algoritmusok is az adatbányászat ter¨ uletéhez tartoznak. A jegyzetben szó lesz intelligensebb keresésr˝ol, oldalak rangsorolásáról, illetve hasonló tartalm´ u oldalak megtalálásáról. El˝ofordulhat, hogy az adatbányászati rendszer, még megfelel˝oen megválasztott paraméterek mellett is, t´ ul sok szabályt, o¨sszef¨ uggést tár fel. Az egyik legnehezebb kérdés az, hogy ezek ´ köz¨ ul melyek az érdekesek. Erdekess´ egi mutatókról a´ltalánosságban nem sok mondható el, mert a k¨ ulönböz˝o felhasználási ter¨ uleteken más-más minta lehet hasznos. Megk¨ ulönböztet¨ unk szubjekt´ıv és objekt´ıv érdekességi mutatókat. Egy minta mindenképpen érdekes, ha meglep˝o, azaz eddigi tudásunknak ellentmond, vagy u ´ jszer˝ u, azaz tudásunkat kiegész´ıti. Ugyanakkor egy információ csak akkor érdekes, ha felhasználható, azaz tudunk valamit kezdeni vele [160]. Azt, hogy egy szabály mennyire meglep˝o – több-kevesebb sikerrel – tudjuk formalizálni. Az u ´ jszer˝ uségr˝ol és a felhasználhatóságról azonban csak a ter¨ ulet szakért˝oje tud nyilatkozni. Annak ellenére, hogy az adatbányászat egy u ´ j ter¨ ulet, a fentiekb˝ol látható, hogy régi, már ismert problémákat is magába foglal. Gondoljunk itt arra, hogy klaszterez˝o algoritmusokat már a 60-as években is javasoltak, vagy arra, hogy az osztályozás feladatát f¨ uggvény approximációként is felfoghatjuk, aminek irodalmával több könyvespolcot is meg lehetne tölteni2 . Tehát az adatbányászatban gyakran nem maga a probléma u ´ j, hanem az adatok mérete, továbbá az a követelmény, hogy az egyes algoritmusok futási ideje olyan rövid legyen, hogy az eredmények a gyakorlatban elfogadható id˝on bel¨ ul érkezzenek. Az alkalmazásokban nem ritkák a giga- s˝ot terrabájt nagyság´ u adathalmazok. A [49] ´ırásban például egy beszámolót olvashatunk egy bank adatbázisának elemzésér˝ol adatbányászati eszközökkel, ahol az u ¨ gyfelek száma elérte a 190 milliót az adatok mérete pedig a 4 TB-ot. Ilyen méretek mellett már kvadratikus lépésigény˝ u algoritmusokat sem engedhet¨ unk meg. Látni fogjuk, hogy a legtöbb adatbányászati algoritmus a teljes adatbázist kevés alkalommal olvassa végig. Skálázható (scalable) és hatékony (efficient) algoritmusokat keres¨ unk, amelyek megbirkóznak nagy méret˝ u Magyar kutat´ ok szerint a adatbázisokkal. Elvárjuk, hogy az adatbázis fontosabb ”mobil puszt´ıtja a spermiumoparamétereinek ismeretében az algoritmusok futási ideje kat.” Forrás : http://www. megjósolható legyen. Az o´riási memóriaméretek miatt a origo.hu/tudomany/elet/ legtöbb elemzend˝o adatbázis – megfelel˝o a´talak´ıtásokkal 20040628amobiltelefon.html – valósz´ın˝ uleg elfér a memóriában, de mégis sokszor azt feltételezz¨ uk, hogy az adat a háttértáron található. 2

Vannak olyan eredmények is, amelyeket egym´ ast´ ol f¨ uggetlen¨ ul megkaptak az adatb´ any´ aszat és a statisztika kutat´ oi is. Péld´ aul d¨ ontési f´ ak el˝ oa ´ll´ıt´ as´ ar´ ol ´ırt négy statisztikus egy k¨ ozismert k¨ onyvet [27]. Ek¨ ozben egy jeles adatb´ any´ asz kutat´ o J. Ross Quinlan d¨ ontési fa el˝ oa ´ll´ıt´ o szoftvert kész´ıtett. A két kutat´ asban sok k¨ oz¨ os m´ odszer lelhet˝ o fel.


9

Az adatbázisok méretének növekedése miatt egyre fontosabbak a párhuzamos´ıtható algoritmusok (lásd például part´ıciós algoritmus rész). Ezek az adatbázist részekre osztják, majd az egyes részeket k¨ ulön memóriával és háttértárral rendelkez˝o egységek dolgozzák fel, és vég¨ ul egy kit¨ untetett egység egyes´ıti a részeredményeket. Szintén a méretnövekedés az oka azon algoritmusok népszer˝ uségének, amelyek futási ideje nagy mértékben csökkenthet˝o valamilyen el˝ozetes információk (például korábbi futási eredmények) ismeretében (lásd asszociációs szabályok karbantartása rész).

1.2. A tud´ asfelt´ ar´ as folyamata A tudáskinyerés folyamata során 6-10 fázist szokás elk¨ ulön´ıteni [56, 73] attól f¨ ugg˝oen, hogy mely lépéseket vonjuk o¨ssze (tekinthetj¨ uk például az 1.3 a´brát) : értelmezés és értékelés adatbányászat

tudás

csökkentés és transzformáció minták tisztítás

kiválasztás tisztított adat

transzformált adat

forrás adat

adat

1.3. a´bra. A tudásfeltárás folyamata I. Az alkalmazási ter¨ ulet feltárása és megértése, fontosabb el˝ozetes ismeretek begy˝ ujtése, és a felhasználási célok meghatározása. II. Céladatbázis létrehozása : kiválasztani a használni k´ıvánt adatbázist, (vagy annak csak egy részét), amib˝ol a tudást ki akarjuk nyerni. III. Adattiszt´ıtás : itt olyan alapvet˝o operációkat ért¨ unk, mint a téves bejegyzések eltávol´ıtása, hiányos mez˝ok pótlása, zajok sz˝ urése stb. Zajon az adatba ép¨ ult véletlen hibát ért¨ unk. Vannak zajok, amelyeket egyszer˝ u felfedezni és jav´ıtani. Például sztring érték ott, ahol


10

számot várunk, vagy felsorolás t´ıpus´ u attrib´ utumnál érvénytelen érték található. Sajnos sok esetben a hiba észrevétlen marad (például 0.53 helyett 0.35 érték gépelése). IV. Adatintegráció : a feldolgozás számára fontos, esetleg elosztott adatbázisok egyes´ıtése. A harmadik és negyedik lépést egy¨ utt gyakran nevezik az adatok el˝ofeldolgozásának. A k¨ ulönböz˝o forrásból vett adatok integrációja során sok problémába u ¨ tközhet¨ unk. A k¨ ulönböz˝o osztályok k¨ ulönböz˝o módon tárolják adataikat, k¨ ulönböz˝o konvenciókat követnek, k¨ ulönböz˝o mértékegységeket, els˝odleges kulcsokat és elnevezést használhatnak és k¨ ulönféle hibák lehetnek jelen. Az egész céget a´tfogó adatintegrációt adattárházban tárolják, mely egy speciális, az elemzést támogató adatbázis. 3 V. Adattér csökkentés : az adatbázisból a cél szempontjából fontos attrib´ utumok kiemelése. VI. Adatbányászati algoritmus t´ıpusának kiválasztása : eldönteni, hogy a megoldandó feladat klaszterezés, vagy szabály-, illetve mintakeresés, esetleg osztályozás. VII. A megfelel˝o adatbányászati algoritmus meghatározása. El˝onyeinek, hátrányainak, paramétereinek vizsgálata, futási id˝o- és memóriaigény elemzése. VIII. Az algoritmus alkalmazása. IX. A kinyert információ értelmezése, esetleg visszatérés az el˝oz˝o lépésekhez további finom´ıtások céljából. X. A megszerzett tudás meger˝os´ıtése : o¨sszevetés elvárásokkal, el˝ozetes ismeretekkel. Eredmények dokumentálása és a´tadása a felhasználónak. Egy adatbányászati elemzés eredménye akkor nem felel meg az elvárásainknak”, ha nem siker¨ ul semmilyen u ´ j, hasz” nos és természetesen valós o¨sszef¨ uggést feltárni. Ennek nyilván több oka is lehet, a következ˝okben két példát mutatunk [31]. 1. El˝ofordulhat, hogy rosszul választottuk meg az elemzéshez (adatbányászathoz) használt algoritmust vagy ennek paramétereit, és egy másik eljárással (vagy más paraméterekkel) találni fogunk valamilyen érdekes o¨sszef¨ uggést. Szemléletesen szólva : más oldalról ránézve az adathegyre, lehet, hogy látunk rajta valami érdekeset. 2. Természetesen az is lehetséges, hogy az adatok egyáltalán nem rejtenek semmiféle u ´ j, a gyakorlatban hasznos´ıtható o¨sszef¨ uggést. Ekkor — sajnos — teljesen elölr˝ol kell kezdeni a folyamatot, u ´ j adatok gy˝ ujtésével. 3 A hétk¨ oznapi” m˝ uk¨ odést t´ amogat´ o operat´ıv adatb´ azis, és az adatt´ arh´ azak k¨ oz¨ otti k¨ ul¨ onbségre egy ” szemléletes példa az al´ abbi [31]: Ha tudni szeretnénk Kis J´ anos aktu´ alis sz´ amlaegyenlegét, akkor ezt egy operat´ıv adatb´ azis alapj´ an pontosan és gyorsan meg tudjuk hat´ arozni. Egy a ´tfog´ obb” kérdés — péld´ aul: Ho” ” gyan alakultak az u ¨gyfelek bankban elhelyezett megtakar´ıt´ asai az elm´ ult 12 h´ onapban?” — megv´ alaszol´ asa egy operat´ıv adatb´ azis esetén bonyolult lehet, és sok ideig tarthat. Egy adatt´ arh´ az az ut´ obbi kérdésre gyors v´ alaszt tud adni, t´ amogatva ez´ altal a d¨ ontéshoz´ okat. A v´ alasz azonban nem teljesen pontos: ha délut´ an 4-kor kérdezz¨ uk le az ut´ obbi 12 h´ onapbeli megtakar´ıt´ asokat, abban még nem biztos, hogy benne lesz Kis J´ anos aznap délel˝ ott lek¨ ot¨ ott betétje. Az adatt´ arh´ az adatai teh´ at nem feltétlen¨ ul abszol´ ut frissek, nyilv´ an sz¨ ukséges azonban a periodikus friss´ıtés¨ uk. Adatt´ arh´ azak alkalmaz´ asakor a trendek, folyamatok elemzése a cél. Az, hogy nem az aktu´ alisan legfrissebb adatokkal dolgozunk, a ´ltal´ aban nem okoz gondot, feltéve, hogy a legut´ obbi friss´ıtés o ´ta nem k¨ ovetkezett be radik´ alis v´ altoz´ as. Ugyanakkor Kis J´ anos nyilv´ an nem o ¨r¨ ulne, ha a betét elhelyezése ut´ an este lekérdezve sz´ aml´ aj´ at nem l´ atn´ a” a pénzét, mert a periodikus friss´ıtés csak hetente egyszer esedékes: az o ˝ ” igényeinek nyilv´ an az operat´ıv adatb´ azis felel meg.


11

A sikeres adatbányászati projektekben az els˝o 5 lépés teszi ki az id˝o- és pénzráford´ıtások legalább 80%-át. Ha a célok nem kell˝oképpen a´tgondoltak és a bányászandó adatok nem elég min˝oségiek, akkor könnyen el˝ofordulhat, hogy az adatbányász csak vaktában dolgozik és a kinyert információnak tulajdonképpen semmi haszna sincs. A tudásfeltárás során elengedhetetlen, hogy az adatbányász és az alkalmazási ter¨ ulet szakért˝oje szorosan egy¨ uttm˝ uködjön, a projekt minden fázisában ellen˝orizzék a betartandó irányvonalakat. Nézz¨ unk erre egy példát : ha adatbányászati eszközökkel siker¨ ul kimutatni, hogy X betegséggel gyakran egy¨ utt jár Y betegség is, a kutatóorvos képes eldönteni azt, hogy ez valóban ´ıgy van-e : megvizsgálhatja, hogy ugyanezen o¨sszef¨ uggés más adathalmaz esetén is fennáll-e (esetleg direkt ebb˝ol a célból gy˝ ujt adatot). Ha igen, akkor kider´ıtheti azt, hogy az egyik betegség során keletkezik-e olyan kémiai anyag, vagy elszaporodott-e olyan kórokozó, mely hozzájárul a másik betegség kialakulásához. Ezek alapján azt mondhatjuk, hogy az adatbányász tippeket” ad a kutatóorvosoknak. Ezen ” tippek” jelent˝oségét nem szabad alábecs¨ uln¨ unk : ezek o´vhatják meg a kutatóorvost attól, hogy ” — szemléletesen fogalmazva — rossz helyen tapogatózzon”. Az adatbányászat tehát els˝o sor” ban u ´ j, ´ıgéretes hipotézisekkel járulhat hozzá a közegészség¨ ugyi kutatásokhoz. A következ˝o valós példa is az adatbányász és a kutatóorvos szerepét szemlélteti. Egy adatbányász az életmódra és a megbetegedésekre vonatkozó adatokat elemezve juthat arra a következtetésre, hogy a prosztatarák o¨sszef¨ ugg a szenesedésig s¨ utött h´ us fogyasztásával. Ezzel irányt mutat” a kutatóorvosnak, aki a háttérben rejl˝o kémiai reakciókat és azok biológiai ” következményeit tárja fel. Ez a konkrét esetben lényegében ´ıgy is történt : el˝obb tárták fel a jól a´ts¨ utött h´ us fogyasztása és a prosztatarák gyakorisága közötti o¨sszef¨ uggést, majd megtalálták a h´ us s¨ utéskor keletkez˝o PhIP vegy¨ uletet és kimutatták, hogy hatására prosztatarák alakulhat ki [80]. Ez a jegyzet a 6. és 7. lépéseket veszi szem¨ ugyre : rendelkezés¨ unkre a´ll egy adatbázis, tudjuk, milyen jelleg˝ u információra van sz¨ ukség¨ unk, és az adatbányász feladata, hogy ennek megoldására minél gyorsabb és pontosabb algoritmust adjon. ´ Altal´ anosabban kétféle adatbányászati tevékenységet k¨ ulön´ıt¨ unk el : Felt´ ar´ as : A feltárás során az adatbázisban található mintákat keress¨ uk meg. A minták legtöbbször az a´ltalános trendeket/szokásokat/jellemz˝oket ´ırják le, de vannak olyan alkalmazások is (például csalásfelder´ıtés), ahol éppen az a´ltalánostól eltér˝o/nem várt mintákat keress¨ uk. El˝ orejelz´ es : Az el˝orejelzésnél a feltárt minták alapján próbálunk következtetni a jöv˝ore. Például egy elem ismeretlen értékeit próbáljuk el˝orejelezni az ismert értékek és a feltárt tudás alapján. Négy fontos elvárásunk van a megszerzett tudással kapcsolatban : (1) legyen könnyen érthet˝o, (2) érvényes, (3) hasznos és (4) u ´ jszer˝ u. Az érvényesség eldöntése a ter¨ ulet szakért˝oje mellett az adatbányász (esetleg statisztikus) feladata is. El˝ofordulhat, hogy helyes modellt adtunk, az algoritmus is jól m˝ uködött, mégis a kinyert szabály nem fedi a valóságot. Bonferroni tétele arra figyelmeztet benn¨ unket, hogy amennyiben a lehetséges következtetések száma t´ ul nagy, akkor egyes következtetések tényleges valóságtartalom nélk¨ ul igaznak mutatkoznak, tisztán statisztikai megfontolások alapján. Az egyik legjobb példa a valóságtartalom nélk¨ uli szabály kinyerésére az alábbi megtörtént eset. Amerikában a Dow Jones a´tlag becsléséhez keresni kezdték azt a terméket, amely a´rának alakulása leginkább hasonl´ıtott a Dow Jones a´tlag alakulásához. A kapott termék a bangladesi gyapot volt.


12

Az adatok illetve a kinyert információk megjelen´ıtésének módja legalább annyira fontos, mint az o¨sszef¨ uggések meghatározása. A végfelhasználókat (akik a´ltalában vezet˝ok) jobban megragadja egy jól elkész´ıtett a´bra, mint k¨ ulönböz˝o matematikai strukt´ urák nyers tálalása. A megjelen´ıtés tehát fontos része az adatbányászatnak. Ezt jól igazolja, hogy nagy sikert könyvelnek el az olyan adatbányászati szoftverek, amelyek adatbányászati algoritmusokat nem is futtatnak, pusztán az adatokat jelen´ıtik meg intelligens módon (háromdimenziós, sz´ınes, forgatható a´brák). Ezeknél a rendszereknél az o¨sszef¨ uggéseket, mintázatokat, közös tulajdonsággal rendelkez˝o csoportokat maguk a felhasználók veszik észre. Az adatbányászati szoftverekr˝ol részletesebben a 14. fejezetben olvashatunk.

1.3. Adatb´ any´ aszat kontra statisztika Nehéz definiálni, hogy egy feladat és annak megoldása mikor tartozik a statisztika és mikor az adatbányászat felségter¨ ulete alá. A statisztika több hangs´ ulyt fektet hipotézisek vizsgálatára, m´ıg az adatbányászatban a hipotézisek megtalálásának módja a´ll a középpontban. Az adatbányászat egy gyakorlatorientált ter¨ ulet, kevesebb s´ ulyt kapnak (sajnos) az elméleti elemzések. Viszont központi kérdés egy algoritmus futási ideje és memóriaigénye. Az adatbányászati algoritmusok bemutatása során kitér¨ unk az adatstrukt´ urális és akár implementációs kérdésekre is. Sok kutató az adatbányászatot nem k¨ ulönbözteti meg a gépi tanulástól. Elvégre a gépi tanulásnál is adatok alapján tanul meg egy koncepciót a gép. Cinikusok szerint az adatbányászat ´ nem más, mint statisztika plusz egy kis marketing. Valóban, nincs éles határ közt¨ uk. Ugy a´ltalában beszélhet¨ unk adat elemz˝o technikákról. Egyes adat elemz˝o technikákat inkább adatbányászati módszernek mondunk, másokat pedig a statisztikához vagy a gépi tanuláshoz sorolunk. A 20. század második felét˝ol egyre jellemz˝obb a tudományra, hogy bizonyos klasszikus elméletet kiragadnak és u ´ j kutatási ter¨ uletnek kiáltják ki. Ugyan´ıgy van ezzel a marketing ; ugyanazt a terméket egyszer csak u ´ j, hangzatosabb névvel kezdik el értékes´ıteni. A tudományban is a kutatási feladatokat el kell adni a pályázatokat b´ıráló zs˝ uriknek és az u ´ j névvel ellátott tudományter¨ ulet u ´ j irányokat sugall ; az u ´ j irányzatok és élbeli kutatások pedig nagy támogatást kapnak. Ez a tény jelent˝osen hozzájárult az adatbányászat elterjedéséhez és az egyes adatelemz˝o feladatok ”adatbányászati” c´ımkével való ellátásához. Adatbányászathoz soroljuk a klaszterzés, osztályozás, asszociációs szabálykinyerés és az id˝osorelemzés nem klasszikus (pl. regressziószám´ıtás, sim´ıtás) feladatait. A következ˝okben néhány példán kereszt¨ ul szemléltj¨ uk az adatbányászat és a statisztika közötti k¨ ulönbséget és egyben a két ter¨ ulet rokonságát is [31]. I. Tegy¨ uk fel, hogy egy adatbázisban sokmillió ember DNS-szekvenciáit és tulajdonságait tároljuk (1.4 a´bra). Egy jellegzetes statisztikai kérdés lehet az, hogy például a kék szem˝ u emberek mekkora részére jellemz˝o egy adott DNS-szekvencia. Természetesen olyan kérdést is feltehet¨ unk, melynek megválaszolása ennél kifinomultabb eszköztárat igényel : ha azt szeretnénk tudni, van-e szignifikáns f¨ uggés egy adott DNS-szekvencia megléte és a kék szem” tulajdonság között, statisztikai próbát alkalmazhatunk ennek eldöntésére. ” Egy adatbányász nem kérdezne rá egy konkrét szekvencia és egy konkrét tulajdonság közötti o¨sszef¨ uggésre, hanem egy a´ltalánosabb kérdést tenne fel, például azt, hogy mi-


13

1.4. a´bra. Egy jellegzetes adatbányászati feladat : DNS-szekvenciák elemzése

lyen o¨sszef¨ uggés van a tulajdonságok és szekvenciák között, melyik tulajdonságért melyik szekvencia felel˝os ? II. Egy másik példa az adatbányászat és statisztika közötti k¨ ulönbségre az alábbi : egy statisztikai elemzés során megvizsgálhatjuk, hogy a n˝ok illetve férfiak hány százaléka dohányzik, fogyaszt rendszeresen nagy mennyiségben alkoholt, van-e szignifikáns eltérés a két csoport között. Egy adatbányászati elemzés során itt is a´ltalánosabb kérdést tennénk fel, például azt, hogy milyen jellegzetes csoportok vannak az alkoholfogyasztásra és dohányzásra nézve ? Tehát azt nem mondjuk meg el˝ore, hogy az egyik csoportba a n˝ok, a másikba pedig a férfiak tartoznak. Az adatbányász feladata, hogy u ´ gy csoportos´ıtsa az embereket (rekordokat), hogy a hasonlók egy csoportba, a k¨ ulönböz˝ok pedig k¨ ulönböz˝o csoportba ker¨ uljenek. (Ez egy klaszterezési feladat.) Az adatbányászatban az ilyen feladatokat nem hosszas emberi munka és intu´ıció a´rán oldjuk meg, hanem töreksz¨ unk a minél nagyobb fok´ u automatizálásra kifinomult szoftverek alkalmazásával. Eredményként könnyen lehet, hogy nem a nemek szerinti csoportos´ıtást kapjuk, hanem egy olyat, melyben ugyanazon csoportokba férfiak és n˝ok is ker¨ ultek, akik — egyéb tulajdonságaik alapján — hasonlóak. 4 III. Az el˝obbi példában természetesen más irányba is a´ltalános´ıthatjuk” a statisztikai elemzés ” során feltett kérdés¨ unket : lehet, hogy arra vagyunk k´ıváncsiak, hogy mi a k¨ ulönbség a férfiak és a n˝ok között. Ismerj¨ uk tehát a két csoportot, de nem tudjuk, hogy mely tulajdonságok vagy tulajdonságkombinációk jellemz˝oek egy-egy csoportra. Ekkor egy 4

Ahhoz, hogy egy ilyen elemzés sikeres legyen, nagyon fontos a hasonl´ os´ agi mérték megfelel˝ o megv´ alaszt´ asa, valamint az elemzésbe bevont attrib´ utumok (adatt´ abla-oszlopok) u ¨gyes” kiv´ alaszt´ asa. Ha péld´ aul az alkohol” fogyaszt´ asra és doh´ anyz´ asra vonatkoz´ o adatok mellett t´ ul sok” tov´ abbi attrib´ utumot vonunk be a vizsg´ alatba, ” akkor lehet, hogy a csoportos´ıt´ as nem az alkoholfogyaszt´ asra és doh´ anyz´ asra vonatkoz´ o jellegzetes csoportokat ´ltal´ anos” csoportokat kapunk. tartalmazza, hanem a ”


14

1.5. a´bra. Döntési fa : n˝ok és férfiak közötti k¨ ulönbségek a Semmelweis Egyetem hallgatóinak körében végzett felmérés alapján. osztályozási feladattal a´llunk szemben, a csoportokat osztályoknak nevezz¨ uk. Ezt a kérdést egyébként fel is tett¨ uk a Semmelweis Egyetem hallgatóinak körében végzett egyik felmérés adatbázisán. Az eredmény az 1.5. a´brán látható. Ez egy döntési fa. A levelek az osztályoknak (n˝ok illetve férfiak) felelnek meg. A fa közb¨ uls˝o csomópontjaiban egy-egy attrib´ utum (adattáblabeli oszlop) neve látható. A fa egy csomópontjából kiinduló a´gak az adott csomóponthoz tartozó attrib´ utum egy-egy lehetséges értékének felelnek meg. Egy döntési fa azt mutatja meg, hogy ha nem ismernénk, hogy egy rekord melyik osztályba tartozik, akkor hogyan dönthetnénk ezt el. Például a fogamzásgátlót szed˝o hallgatók n˝ok (pontosabban : azon rekordok, amelyek FOGAMZASGA attrib´ utuma 1” érték˝ u, a n˝oi ” 5 hallgatók osztályába tartoznak).

1.4. Sikeres alkalmaz´ asok Az adat bányászata” eredetileg statisztikusok a´ltal használt kifejezés, az adatok nem ” kell˝oképpen megalapozott felhasználására, amely során valaki helytelen következtetést von le. Igaz ugyanis, hogy tetsz˝oleges adathalmazban felfedezhet¨ unk valamilyen strukt´ urát, ha elég sokáig nézz¨ uk az adatot. Ismét utalunk a lehetséges következtetések nagy számából ered˝o veszélyre. A helytelen következtetésre az egyik legh´ıresebb példa az alábbi : Az 50-es években 5

A d¨ ontési fa ép´ıtésekor a ´ltal´ aban nem k¨ ovetelmény, hogy egy levélbeli o ¨sszes rekord ugyanazon oszt´ alyba tartozzon, elég, ha nagy rész¨ uk” azonos oszt´ alyba tartozik. Ebben a konkrét péld´ aban az o ¨sszes fogamz´ asg´ atl´ ot ” szed˝ o hallgat´ o n˝ o volt.


15

David Rhine parapszichológus diákokat vizsgált meg azzal a céllal, hogy parapszichológiai képességgel rendelkez˝oket találjon. Minden egyes diáknak 10 lefedett kártya sz´ınét kellett megtippelne (piros vagy fekete). A k´ısérlet eredményeként bejelentette, hogy a diákok 0,1%-a parapszichológiai képességgel rendelkezik (a teljesen véletlenszer˝ uen tippel˝ok között a helyesen tippel˝ok várható száma statisztikailag nagyjából ennyi, hiszen annak valósz´ın˝ usége, hogy vala1 1 ki mind a t´ız kártyát eltalálja 210 = 1024 ). Ezekkel a diákokkal u ´ jra elvégezte a k´ısérletet, a´m ez´ uttal a diákok eredménye teljesen a´tlagos volt. Rhine következtetése szerint az, aki parapszichológiai képességgel rendelkezik és err˝ol nem tud, elveszti eme képességét, miután tudomást szerez róla. A fenti példa ellenére mára az adatbányászat szó elvesztette jelentésének negat´ıv tartalmát, a számos sikeres alkalmazásnak köszönhet˝oen. A teljesség igénye nélk¨ ul felsorolunk bel˝ol¨ uk néhányat. – A bankok egyre gyakrabban alkalmaznak olyan automatikusan el˝oa´ll´ıtott döntési fákat, amelyek alapján egy program javaslatot tesz egy hitel meg´ıtélésér˝ol. Ezt a kérelmez˝ok személyes, továbbá el˝ozetes hitelfelvételi és törlesztési adatai alapján teszi (osztályozás) [166]. Tesztek például igazolták, hogy a hitelb´ırálat min˝osége javult az USA-ban, amikor a bankok a´ttértek a kötelez˝oen alkalmazott, ´ırásban rögz´ıtett szabályok alkalmazására [166]. Ezeket a szabályokat pedig az adatbányászat seg´ıtségével a´ll´ıtották o¨ssze. – A vásárlói szokások felder´ıtése szupermarketekben, illetve nagy vev˝okörrel rendelkez˝o a´ruházakban hasznos lehet az a´ruház terméktérképének kialak´ıtásánál, akciók, eladáshelyi reklámok (Point of Sales, Point of Purchase), leárazások szervezésénél. . . (asszociációs szabályok). – Az ember genot´ıpusának elemzéséhez a gének nagy száma miatt szintén adatbányászati algoritmusok sz¨ ukségesek. Az eddigi sikeres k´ısérletek célja olyan géncsoportok feltárása volt, amelyek a cukorbetegség bizonyos változataiért felel˝osek. A teljes emberi génrendszer feltárásával ez a ter¨ ulet egyre fontosabb lesz. – Az on-line a´ruházak a jöv˝oben egyre elfogadottabbak és elterjedtebbek lesznek. Mivel az on-line kereskedelemben nem használhatóak a megszokott személyes marketing eszközök a forgalom (és a profit) személyre szabott vásárlási ajánlatokkal növelhet˝o. Az ajánlatokat az eddigi vásárlási adatok és a rendelkezésre a´lló demográfiai adatok elemzése alapján tehetj¨ uk meg (epizódkutatás, asszociációs szabályok). – A csillagászatban az égitestek o´riási száma miatt a hagyományos klaszterez˝o algoritmusok még a mai szám´ıtási kapacitások mellett sem képesek racionális id˝on bel¨ ul k¨ ulönbséget tenni galaxisok, közeli csillagok és más égi objektumok között. Az u ´ jabb, kifinomultabb algoritmusok futási ideje jóval kevesebb, ami lehet˝ové teszi a klaszterezést (klaszterezés). – Utazás szervezéssel kapcsolatos minták kinyerésével hatékonyabban (és ennek következtében nagyobb nyereséggel) megszervezhet˝ok a nagy költségfaktor´ u tényez˝ok, pl. szállodai szobák, rep¨ ul˝ojegyek leárazása, vagy a´remelése (epizódkutatás, gyakori minta). – Kifinomult gyártási folyamatok során gyakran a beáll´ıtási paraméterek finomhangolására van sz¨ ukség. A k˝oolaj és a földgáz szétválasztása az olajfinom´ıtás sz¨ ukséges el˝ofeltétele, de az elválasztási folyamat kontrollálása nem könny˝ u feladat. A British Petroleum


16

olajvállalat a gépi tanulás technikáját használta a paraméter-beáll´ıtás szabályainak megalkotására. Most ez t´ız percet vesz igénybe, m´ıg korábban szakért˝ok több, mint egy napi munkáját vette igénybe. – A Westinghouse cég nukleáris t¨ uzel˝oanyag-cellák gyártása során u ¨ tközött problémákba, és szintén a gépi tanulás seg´ıtségével hoztak létre folyamatkontrollálási szabályokat. Ezzel 10 millió USD-t siker¨ ult megspórolniuk az 1984-es évben. A Tenessee a´llambeli R.R. Donelly nyomdaipari cég ugyanezt az o¨tletet alkalmazta a retograv´ ur nyomdagépek irány´ıtására, ´ıgy csökkentve a hibás paraméter-beáll´ıtások következtében keletkez˝o selejtes nyomatok számát évi 500-ról 30-ra. – A v´ırusöl˝o programok az ismert v´ırusokat lenyomataik alapján detektálják, az ismeretleneket pedig többnyire valamilyen heurisztikus módon próbálják kisz˝ urni. Osztályozó algoritmusok felhasználásával az ismert v´ırusok tulajdonságai alapján olyan modellt lehet feláll´ıtani, ami jól le´ırja a v´ırusok tulajdonságait [151, 152]. A modellt sikeresen alkalmazták u ´ j ismeretlen v´ırusok kisz˝ urésére (osztályozás). További esettanulmányokról a 14.3.2 részben olvashatunk. A fentiekben a sikeres alkalmazásokat ismertett¨ uk. A következ˝oben további alkalmazásokat mutatunk be. Célunk, hogy szemléltess¨ uk a diszcipl´ına kiterjedtségét és aktuális a´llását. – Az emberi mesterséges megtermékeny´ıtés során petesejtek sokaságát gy˝ ujtik o¨ssze a n˝oi petefészekb˝ol. Ezeket a partner, vagy donor spermáival megtermékeny´ıtve számos embrió fejl˝odik ki. Köz¨ ul¨ uk néhányat kiválasztanak, és az anyaméhbe u ¨ ltetnek. A problémát a leginkább életképes, legjobb t´ ulélési esélyekkel rendelkez˝o embriók kiválasztása jelenti. A kiválasztás az embriók kör¨ ulbel¨ ul hatvan rögz´ıtett jellegzetességén – a magzat morfológiáján, oocita-, t¨ usz˝osejt- és spermamintákon – alapszik. A jellemz˝ok számossága elegend˝oen nagy ahhoz, hogy t´ ul bonyolult legyen az embriológusoknak valamennyit párhuzamosan megbecs¨ ulni és o¨sszef¨ uggést találni a m´ ultbéli esetek kezdeti jellemz˝oi és azok kimenetele között, azaz, hogy az embrióból vég¨ ul életképes csecsem˝o sz¨ uletett-e vagy sem. Egy angol kutatási projekt arra irányuló kutatást folytat, hogy hogyan lehet a kiválasztást gépi tanulással – az embriók rögz´ıtett adatait tan´ıtóhalmazként használva – megvalós´ıtani. – Az u ´ j-zélandi tejgazdaságoknak minden évben kemény u ¨ zleti döntést kell meghozniuk : ki kell választani, hogy a szarvasmarha a´llomány mely egyedeit tartják meg, és melyeket értékes´ıtik vágóhidaknak. Tipikusan minden gazdaság o¨tödik egyede ker¨ ul mészárszékre a fejési idény végén, ahogy az élelmezési tartalékok kiapadnak. A döntést az egyes példányok tenyészadatai és m´ ultbéli tejtermelékenységi mutatója befolyásolja. További kritikus faktorok az egyed kora (egy példány kb. 8 évesen éri el produkt´ıv korszakának végét), kórtörténete, sz¨ ulési komplikációk, nemk´ıvánatos jellemvonások (agresszivitás, ker´ıtés a´tugrása), illetve az, hogy a következ˝o szezonban vemhes-e. Több millió szarvasmarha egyedenként több mint 700 tulajdonságát rögz´ıtették az évek során. A kutatók azt vizsgálják, hogyan használható fel a gépi tanulás annak megállap´ıtására, hogy a sikeres farmerek mely faktorokat veszik szám´ıtásba a szelektálásnál. Ezzel nem a döntési folyamat gépes´ıtése a céljuk, hanem a sikerstratégia kitanulása, és annak közkinccsé tétele.


17

1.5. Szabv´ anyok Kezdetben sok adatbányászati projektre jellemz˝o volt, hogy az adatbányászok megkapták az adatokat és némi információt az alkalmazási ter¨ uletr˝ol és cserébe várták t˝ol¨ uk a kincset ér˝o információkat. A szoros egy¨ uttm˝ uködés hiánya azonban csak olyan információkhoz vezetett, amelyekkel az alkalmazási ter¨ ulet embererei nem sok mindent tudtak kezdeni. Az adatbányászat elterjedésével (és a min˝oségbiztos´ıtási elvárásokkal) fellépett az igény, hogy legyen egy szabvány, egy u ´ tmutató az adatbányászati projektek lebonyol´ıtásáról. Így sz¨ uletett meg a CRISP-DM (CRoss Industry Standard Process for Data Mining) [35], amely adatbányászati eszközt˝ol és felhasználási ter¨ ulett˝ol f¨ uggetlen¨ ul le´ırja, hogy miként kellene kinéznie egy adatbányászati projektnek, illetve ismerteti a kulcsfontosság´ u lépéseket, és a potenciális veszélyeket. A CRISP-DM szerint a tudáskinyerés az 1.6 a´bra szerinti módon jön létre.

1.6. a´bra. A tudásfeltárás folyamata a CRISP-DM szerint Az adatbányászati folyamat szabványos´ıtása mellett egyre nagyobb az igény a folyamat egyes lépéseiben felmer¨ ul˝o megoldások, problémák, eszközök szabványos´ıtására. Ezek köz¨ ul a legismertebbek : – az XML alap´ u PMML (Predictive Modeling Markup Language), amely az adatbányászati eredmények szabványos le´ırását szolgálja, – a Microsoft analysis szerver adatbányászati funkciókkal kib˝ov´ıtett szabványa (OLE DB for data mining),


18

– az ISO törekvései multimédia és alkalmazás specifikus SQL t´ıpusok és a hozzá tartozó eljárások definiálására (SQL/MM) – java adatbányászati API (JDMAPI)

1.6. Adatb´ any´ aszati rendszer architekt´ ur´ aja Egy adatbányászati rendszernek kapcsolatban kell lennie az adatbázissal, a felhasználóval és esetleg valami tudásalap´ u rendszerrel. Ezek alapján egy tipikus adatbányászati architekt´ ura az 1.7. a´brán látható.

grafikus felhasználói felület

minta kiértékelés

adatbányász motor

tudás bázis

Adatbázis vagy adattárház szerver adattisztítás adatintegráció

adatbázis

" szurés

adat− tárház

1.7. a´bra. Tipikus adatbányászati rendszer architekt´ urája Adatb´ azis, adatt´ arh´ az vagy m´ as inform´ aci´ o rakt´ ar : Itt találhatók a tényleges adatok, ami lehet egy adatbázis, vagy adattárház, akár egy munkalap vagy bármilyen tárolt információ. Az adattiszt´ıtás és integráció közvetlen¨ ul az adatokon is elvégezhet˝o. Adatb´ azis vagy adatt´ arh´ az szerver : A szerver felel˝os a felhasználó a´ltal kért adat kézbes´ıtéséért. Tud´ as b´ azis : A ter¨ uletre jellemz˝o, valamilyen szinten formalizálható tudás található itt. Fontos szerepe lehet ennek a keresési tér sz˝ uk´ıtésénél, a kinyert minták érdekességének meghatározásánál, k¨ ulönböz˝o paraméterek és k¨ uszöbszámok meghatározásánál. Adatb´ any´ asz motor : Az adatbányász motorban futnak a k¨ ulönböz˝o adatbányászati algoritmusok.


19

Minta ki´ ert´ ekel˝ o modul : Ez a modul felel˝os a kinyert minta vagy o¨sszef¨ uggések kiértékeléséért a ter¨ uletre jellemz˝o érdekességi mutatók alapján. Sokszor látni fogjuk, hogy minél jobban egybe tudjuk ép´ıteni az adatbányászatot a minta kiértékelésével, annál hatékonyabb és gyorsabb lehet a tudásfeltárás. Grafikus felhaszn´ al´ oi fel¨ ulet : Itt zajlik a kommunikáció a felhasználó és az adatbányászati rendszer között. A felhasználó itt adhatja meg, hogy melyik adatbázisban milyen jelleg˝ u o¨sszef¨ uggéseket keres és ezen a rétegen kereszt¨ ul láthatja a végeredményt. Az o¨sszef¨ uggések a´tlátható, értelmes tálalása rendk´ıv¨ ul fontos, hiszen ennek hiánya elriaszthatja a felhasználót az adatbányászattól.

1.7. Adatb´ any´ aszat ´ es az etika Az internet széleskör˝ u terjedésével, és a modern technikák megjelenésével a jogi szabályozás sokszor képtelen lépést tartani. Ilyen ter¨ ulet az adatbányászat is, mint felfutó tudományág. Bár a személyes adatok védelmér˝ol már sz¨ ulettek jogszabályok, ezek nem minden esetben teljeskör˝ uek, illetve még ´ıgy is sok etikai problémát hagynak nyitva. Elmondható, hogy a törvény nagyrészt azt szabályozza, ami egyben etikátlan is, ´ıgy ebben a részben 6 élj¨ unk azzal a feltételezéssel, hogy minden törvényesen történik az adatbányászati projekt során. El˝oször is sokak a´ltal kifogásolt ter¨ ulet az adatok begy˝ ujtése. A mai ember lépten-nyomon információkat szór szét magáról : minden u ¨ zletben kamerák vannak elhelyezve, szörföl az interneten, bárhol használhat hitelkártyát, törzsvásárlói kártyát. Ezen tevékenységek során rengeteg adatbázisban hagy magáról információt. A személyes információk begy˝ ujtésénél - a törvény szerint - az érintetteket tájékoztatni kell arról, hogy ki, milyen célból fogja azt feldolgozni. Ezt a célt az adatbányászatnál nem lehet el˝ore azonos´ıtani, mert az elemzés el˝ott nem tudjuk megmondani, hogy milyen információkat fogunk kinyerni az adatbázisból, és néhány esetben még azt sem tudjuk garantálni, hogy az eredmény egyáltalán felhasználásra ker¨ ul. Ez is mutatja, hogy az adatok begy˝ ujtésére u ´ j szabályozásokat kellene alkotni. Erre egy lehetséges megoldás, ha az érintett azt döntheti el, hogy – a´ltalánosan – adatbányászati célra felhasználhatóak-e ´ az adatai. Erezhet˝ o azonban, hogy am´ıg az u ¨ gyfél nincs tisztában azzal, hogy az adatokból mire tudnak egyáltalán következtetni, és mire tudják ezt a következtetést felhasználni, addig kevésbé fog élni azzal a lehet˝oségével, hogy letiltsa adatainak felhasználását vagy tárolását. Az pedig még nyilvánvalóbb, hogy a cégeknek nem a´ll érdek¨ ukben o¨nként megosztani ezeket az információkat az u ¨ gyféllel, vagy akár a versenytársakkal [127]. Az osztályozási feladatok kapcsán másfajta morális problémák is felléphetnek : egyrészt magát a módszertant támadják az ellenz˝oi, másrészt könnyen felhasználható diszkriminációra. Sokan azt a hozzáa´llást tartják aggasztónak, hogy el˝ozetes személyes ismeretség nélk¨ ul soroljanak be egyéneket bizonyos csoportokba. Például az amerikai a´llampolgárok egy felmérés során kifogásolták a hitelb´ırálatban bevezetett automatikus döntéshozást, mert u ´ gy érzik, ´ıgy kevésbé foglalkoznak vel¨ uk, személytelenebbé vált a rendszer, csak egy adathalmazként tekintenek rájuk. A személyes ismeretség nélk¨ uli besorolás során fennáll a veszélye, hogy rossz eredményt ad a rendszer, f˝oként, ha kevés attrib´ utummal dolgozunk. Próbáljuk meg például az embereket gyerek-feln˝ott csoportokba besorolni a kor attrib´ utum ismerete nélk¨ ul. A legkézenfekv˝obb megoldás a tests´ ulyuk és testmagasságuk szerint osztályozni o˝ket. Ez a módszer viszont sok esetben 6

Ezt a részt Huczman Zsuzsanna ´ırta.


20

téves eredményhez vezet. ´ ekeny adatokat A diszkriminációnak az asszociációs szabályok kinyerése adhat teret. Erz´ – mint például a vallás, faji hovatartozás, szexuális irányultság – tilos feldolgozni, egy egyszer˝ u adatbányászati algoritmussal viszont nagyon könnyen megoldhatónak t˝ unik a vásárlói szokásokból a nemi hovatartozás, vagy akár egy megfelel˝o kérd˝o´ıv esetében a faji hovatartozás megállap´ıtása. Az, hogy ezek az adatok ne ker¨ uljenek felhasználásra, a projekt vezet˝ojének uletek, de beláthatjuk, hogy már az is diszkfelel˝ossége. Az el˝obb eml´ıtettek kényesebb” ter¨ ” riminációnak szám´ıt, ha egy bizonyos vásárlói csoportot el˝onyökhöz juttatunk egy olyannal szemben, amely sokkal kevesebb profitot ´ıgér elemzéseink alapján. A pozit´ıv diszkriminációra jó példa, amikor a telefonszolgáltatók ajándékot ajánlanak fel u ´ j el˝ofizet˝oik számára [183]. Ugyanakkor Európában az automatikus döntési fák alkalmazása a hitelb´ırálatban pont a diszkrimináció kik¨ uszöbölése a rendszerb˝ol, hiszen a jogszabály szerint a matematikai hátterét az u ¨ gyfél kérésére fel kell fedni. (Ez az USA-ban” például nem kötelessége a banknak, ´ıgy ” lehet˝osége van diszkriminálni.) További etikailag megkérd˝ojelezhet˝o, érdekes felvetések : – A k¨ ulönc pontok kezelése egy másik adatbányászati ter¨ ulet, ahol felmer¨ ul, hogy jogában a´ll-e bárkinek meghatározni, hogy mi tekinthet˝o normális viselkedésnek, illetve el˝oker¨ ulhet a relativitáselméletb˝ol ismert tétel : miszerint a megfigyelt rendszer viselkedése a megfigyelés tényét˝ol is megváltozik. – Hazánkban az adatbányászatot – annak a´ra miatt – f˝oként a marketing ter¨ uletén használják fel : célzott reklámok k¨ uldésére (direkt marketing) ; az akciós termékek meghatározására gyakran vett termékcsoportok alapján ; u ´ j tarifacsomagok bevezetésére. Felmer¨ ul a kérdés, hogy a személyes adatokat, amiket elvileg azért tárolnak pl. telefonszolgáltató esetén, hogy számlázni tudjanak [165], etikus-e profitszerzésre használni ? – Ha egy adatot kivesznek egy adott adathalmazból - az egyén kérésére, - aminek mérete pl. a vásárlói kosarakból való adatbányászat esetén akár 10 9 rekord is lehet, ett˝ol még az elemzés elvégezhet˝o, és az egyén érdekeit nem sérti, de o˝ is részese lesz a következményeknek, pl. direkt-marketing ajánlatokat kaphat. Vég¨ ul két példa az adatbányászat etikai vonatkozásaira : Az emberi DNS a´ltal hordozott információ kinyerése tipikusan adatbányászati feladat. Rendk´ıv¨ ul érzékeny adatról A kr´ onikus fert˝ ozések de” lévén szó, az adatbázis, amivel eddig az adatbányászok presszi´ ot és skizofréni´ at dolgoztak, nem egy konkrét személy DNS szekvenciáját okozhatnak – a ´ll´ıtj´ ak német tartalmazták, hanem több rövidebb szakaszból a´lló DNS- kutat´ ok.” Forrás : http: láncokat. Nemrégiben viszont egy kutató el˝oa´llt a saját //hvg.hu/egeszseg/20070512_ DNS-szekvenciájának kulcsával, vagyis felfedte, hogy mi van depresszio_skizofrenia.aspx belekódolva. Eddig ez technikailag és törvényesen nehezen volt megvalós´ıtható. Beláthatjuk, hogy nem sok értelme van vizsgálni, hogy több töredék DNS milyen információt hordoz, hiszen pont azon lenne a hangs´ uly, hogy létez˝o el˝ofordulásokat és o¨sszef¨ uggéseket lehessen vizsgálni [110]. A kutató ezzel a lépésével nagyban hozzájárult a DNS-szerkezet megismeréséhez, példájából láthatjuk, hogy néha a privacy feladása kell egy-egy eredmény eléréséhez. Adatbányászati projektekben egyébként is gyakori, hogy az adathalmaz, amin az elemzést el kellene végezni, annyira titkos, vagy érzékeny adatokat tartalmaz, hogy a cégek nem is adják


21

ki a kez¨ ukb˝ol. Ilyenek pl. a távközlési vállalatok vagy bankok adatai, amik a konkurencia számára nagy értékkel b´ırnak. Ezekben az esetekben megoldás lehet, hogy a cég maga generál a rendelkezésére a´lló adatokból egy u ´ j adatbázist, - amiknek nyilván bizonyos követelményeknek eleget kell tenni¨ uk - és ezt kapja meg a kutatócsoport elemzésre. Itt a cég felel˝ossége, hogy ellen˝orizze, hogy az eredeti adathalmazban ugyanazok az o¨sszef¨ uggések fennállnak-e, mint a vizsgált adathalmazban. A másik példa az adatbányászat és az etika u ¨ tközésére az a szinte már utópisztikus projekt, amit a NASA és a Northwest Airlines ind´ıtott el : a Washington Times 2002 nyarán számolt be egy u ´ j információ-technológiai megvalós´ıtásról : a két szervezet” olyan alkalmazást ” fejlesztett, és u ¨ zemeltet, amely képes el˝orejelezni, megjósolni az utasok várható viselkedését a rep¨ ul˝otéren, illetve a rep¨ ul˝on. A technológia alapja egy k¨ ulönleges m˝ uszer és egy pszichológusok seg´ıtségével kész´ıtett program o¨tvözött alkalmazása nagy adatbázisokon. A kapu képes érzékelni a rajta a´thaladó személy elektromágneses agyhullámait, a sz´ıvritmusát, a pislogását és a testh˝omérsékletét : gyakorlatilag egy szuper hazugságvizsgáló” berendezés. Ezeket az adato” kat analizálva és o¨sszevetve k¨ ulönböz˝o adatbázisokkal, mint például b˝ un¨ ugyi nyilvántartással, a gép jelez, ha kockázatot érzékel. Ilyenkor a biztonsági o˝rök még mérlegelhetnek, mint ahogy egyébként is tennék, ´ıgy a rendszert véd˝ok arra hivatkozhatnak, hogy csak döntéstámogatást ´ végeznek. Az is mellett¨ uk szól, hogy az Egyes¨ ult Allamokban a rep¨ ul˝otereken a titkos megfigyelés végzése nem törvénybe u ¨ tköz˝o cselekedet. Az USA-ban a személyes adatok védelmére kisebb hangs´ ulyt fektetnek a terrortámadások o´ta. A lakosság elfogadta azt a nézetet, hogy a biztonságuk érdekében a´ldozzák fel a személyes adataikat.

1.8. Az adatb´ any´ aszat felt´ etelei Tagadhatatlan, hogy a sikertelen adatbányászati projektek száma nagy, és az adatbányászat nagyon sok esetben nem váltotta be a hozzá f˝ uzött reményeket. Ennek oka egyrészr˝ol az adatbányászati szakemberhiány (a jó adatbányászati szakember ritka, mint a fehér holló), másrészr˝ol az, hogy alapvet˝o feltételek nem teljes¨ ultek a projektek során. A sikeres adatbányászati projekt egyik legfontosabb feltétele az adatbányász és a ter¨ ulet szakért˝ojének szoros egy¨ uttm˝ uködése. A további feltételek az alábbiak : Nagy mennyis´ eg˝ u adat : A nagy mennyiség˝ u adat a kinyert szabályok statisztikai jelent˝oségét növeli. Minél nagyobb az adatmennyiség, annál biztosabban tudjuk kizárni bizonyos o¨sszef¨ uggések esetiségét, azaz annál kisebb az esélye, hogy a talált o¨sszef¨ uggés csak a véletlen eredménye. Sajnos sok adatot sokáig tart feldolgozni, s˝ot az algoritmusok egy jelent˝os része érzékeny arra, hogy az adatbázis elfér-e a memóriában. Sok attrib´ utum : Ha az objektumokat le´ıró attrib´ utumok száma kicsi, akkor hagyományos eszközökkel (grafikonok, egyszer˝ u táblázatok, kis dimenziós, forgatható, sz´ınes a´brák, stb.) is fel tudjuk tárni a tudást. Kevés attrib´ utum esetén a kinyerhet˝o tudás sem lehet t´ ul sokféle. Az adatbányászat ereje akkor mutatkozik meg, amikor az attrib´ utumszám olyan nagy, hogy a hagyományos módszereknek nincs esély¨ uk. Tiszta adat : Az adatok jó min˝osége az adatbányászat egyik alapfeltétele. A zajok, a hibás bejegyzések jó esetben csak nehez´ıtik az adatbányászatot (például amikor ismerj¨ uk az adatokban található zaj, ill. bizonytalanság fokát), rosszabb esetben azonban hamis


22

eredményekhez vezetnek. Az ilyen rossz min˝oség˝ u adatokra remek példa hazánk orvosi adatbázisa (rengeteg hibás bejegyzés, kitöltetlen mez˝o, eltér˝o mértékegység alap´ u bejegyzések, szöveges bejegyzések), pedig az ezekb˝ol kinyert információk értékesek lennének. A ”szeméthalmazban” való kutakodást tréfásan GIGO-nak (garbage in, garbage out 7 ) nevezik. Torz´ıtatlan adat : Az adatbányászat sikeressége m´ ulhat az adatok nem megfelel˝o kiválasztásán. Ide tartozó fogalom az u ´ n. BIBO (bias in, bias out8 ), amely arra h´ıvja fel a figyelm¨ unket, hogy ha egy részsokaság alapján akarunk következtetni az alapsokaságra, akkor figyelembe kell venn¨ unk a részsokaság kiválasztásának szempontjait, illetve az abból adódó (esetleges) torz´ıtásokat. Például, ha a lakosságot az anyagi helyzet szerint akarjuk csoportokba sorolni, de csak nyugat-magyarországi adatok a´llnak rendelkezés¨ unkre, akkor tudnunk kell, hogy a kapott eredmény (a csoportok le´ırása) torz lesz, hiszen a részsokaság a´tlag életsz´ınvonala jobb az alapsokaságénál. Alkalmaz´ asi ter¨ ulet akci´ ok´ epess´ ege : Gyakran el˝ofordul, hogy a tudást csak kinyerik, de a felhasználása elmarad. Gyakran a felhasználási ter¨ uletek t´ ul merevek, vagy a változtatás t´ ulságosan magas költségekkel járna. A legtöbb adatbányászati esettanulmányban a tudás kinyerésének módjáról esik szó, a tudás felhasználásáról pedig ritkán hallunk. A befektet´ es megt´ er¨ ul´ es´ enek (Return On Investment) m´ erhet˝ os´ ege : Egy adatbányászati projektr˝ol akkor a´ll´ıthatjuk biztosan, hogy sikeres, ha a befektetés hatását mérni, vagy viszonylag pontosan becs¨ ulni tudjuk. A jegyzet fejezeteiben a legkevésbé ismert, de napjainkban egyre nagyobb teret nyer˝o ter¨ uleteket járjuk kör¨ ul : a gyakori minták kinyerését, az attrib´ utumok közötti o¨sszef¨ uggések meghatározását, a sorozatelemzést, a klaszterezést és a webes adatbányászatot. Minden esetben az algoritmusok gyakorlati felhasználását példákon kereszt¨ ul szemléltetj¨ uk ; emellett megadjuk a problémák formális defin´ıcióit, és bemutatjuk a legismertebb, leghatékonyabb algoritmusokat is. A jegyzet további célja, hogy o¨sszefoglalja az eddig nem, vagy csak kis hatékonysággal megoldott problémákat, továbbá a jelenlegi kutatási ter¨ uleteket.

7 8

szemét be, szemét ki torz´ıt´ as be, torz´ıt´ as ki

2. fejezet Alapfogalmak, jel¨ ol´ esek Ebben a részben tisztázzuk a jegyzet során használt fogalmak jelentését. Célszer˝ u akkor a´tnézn¨ unk e fejezet egyes részeit, amikor az olvasás során olyan részbe u ¨ tköz¨ unk, ami nem teljesen tiszta.

2.1. Halmazok, rel´ aci´ ok, f¨ uggv´ enyek, sorozatok A halmaz k¨ ulönböz˝o objektumok egy¨ uttese, amelyeket a halmaz elemeinek h´ıvunk. Ha x eleme a H halmaznak, akkor azt ´ıgy jelölj¨ uk : x ∈ H, a halmaz elemeinek számát (rövidebben elemsz´ am´ at) pedig |H|-val. A jegyzetben a természetes számok halmazát ({0,1,. . . }) Nel jelölj¨ uk, a valós számok halmazát R-el, az egész számok halmazát Z-vel, az u ¨ res halmazt (egyetlen elemet sem tartalmazó halmaz) ∅-val. Két halmaz akkor egyezik meg, ha ugyanazok az elemeik. X részhalmaza Y -nak (X ⊆ Y ), ha X minden eleme Y -nak is eleme. Ha X ⊆ Y , de X 6= Y , akkor X val´ odi részhalmaza Y -nak. A valódi jelz˝ot gyakran fogjuk használni, és a valódi részhalmaz analógiájára azt értj¨ uk rajta, hogy az egyenl˝oséget kizárjuk. Sajnos a superset angol szónak nincsen a´ltalánosan elfogadott ford´ıtása, pedig sokszor szeretnénk használni. Azt fogjuk mondani, hogy Y b˝ ovebb X-nél, ha (X ⊆ Y ). A halmazm˝ uveletek jelölése és pontos jelentés¨ uk : metszet : X ∩Y ={z :z ∈X és z ∈Y }, unió : X ∪Y ={z :z ∈X vagy z ∈Y }, k¨ ulönbség : X \ Y = {z : z ∈ X és z 6∈ Y }. Két halmaz (X, Y ) Descartes-szorzata (X ×Y ) az o¨sszes olyan rendezett párból a´lló halmaz, amelynek az els˝o komponense (tagja) X-ben, a második Y -ban van. Az X, Y halmazokon értelmezett bin´ aris rel´ aci´ o az X × Y részhalmaza. Ha (x, y) eleme a φ relációnak, akkor azt ´ıgy is jelölhetj¨ uk : xφy. A reláció részben rendezés (vagy parciális rendezés), ha reflex´ıv (x x), antiszimmetrikus (x y és y x feltételekb˝ol következik, hogy x = y), tranzit´ıv (x y és y z feltételekb˝ol következik, hogy x z). Ha az el˝oz˝o 3 feltételben az antiszimmetrikus helyett szimmetrikusat (xy-b˝ol következik, hogy yx) mondunk, akkor ekvivalencia-rel´ aci´ or´ ol beszél¨ unk. A továbbiakban, tetsz˝oleges rendezés esetén, ha x6= y és xy, akkor azt ´ıgy jelölj¨ uk x ≺ y. Legyen X részhalmaza X 0 . A X 0 halmaznak y ∈ X egy als´ o korl´ atja, ha y x minden x ∈ X 0 -re. Az y legnagyobb als´ o korl´ at, ha minden y 0 alsó korlátra y 0 y. Az y maxim´ alis als´ o 0 0 0 korl´ atja X -nak, ha nem létezik olyan y-tól k¨ ulönböz˝o y alsó korlát, amire y y . Hasonlóan értelmezhet˝o a fels˝o, legkisebb fels˝o, minimális fels˝o korlát fogalmak is. A ≺ rendezés teljes rendezés, ha minden x 6= y elemre x ≺ y, y ≺ x köz¨ ul az egyik fennáll. Az (X, ) párost h´ al´ onak nevezz¨ uk, ha az X-en értelmezett parciális rendezés, és tetsz˝oleges x, y ∈ X elemeknek létezik 23

¨ ESEK ´ 2. FEJEZET. ALAPFOGALMAK, JELOL

24

legnagyobb alsó (jelölésben : x ∧ y) és legkisebb fels˝o korlátjuk (x ∨ y). Központi fogalom lesz a lexikografikus rendezés. Nézz¨ uk el˝oször ennek a matematikai defin´ıcióját. Legyen X és Y két halmaz, amelyeken értelmezve van egy-egy parciális rendezés (≺ X , ≺ Y ). Azt mondjuk, hogy a (x1 , y1 ) ∈ X × Y lexikografikusan megel˝ozi (x2 , y2 ) ∈ X × × Y párt, ha x1 ≺ X x2 , vagy x1 = x2 és y1 ≺ Y y2 . A lexikografikus rendezést tetsz˝oleges szám´ u halmaz Descartes-szorzatára is kiterjeszthetj¨ uk rekurz´ıv módon az alábbiak alapján : X × Y × ×Z = X ×(Y ×Z). Látható, hogy a lexikografikus rendezést Descartes szorzatokon értelmezz¨ uk, vagy más szóval olyan o¨sszetett strukt´ urákon, amelyeknek ugyanannyi tagjuk van (n-eseknek is h´ıvják ezeket). Mi ezt szeretnénk a´ltalános´ıtani, hiszen például szavak sorba rendezésénél is el˝ofordulnak eltér˝o hossz´ uság´ u szavak. Ha a rövidebb szó megegyezik a hosszabb szó els˝o felével (például komp és kompenzál szavak), akkor megegyezés alapján a rövidebb szó el˝ozi meg lexikografikusan a hosszabbikat. Ezek alapján mindenki tudja definiálni a lexikografikus rendezést eltér˝o szám´ u halmazok Descartes szorzatára. A legtöbb esetben a Descartes szorzat tagjainak halmaza és a rajtuk definiált rendezések megegyeznek (pl. : X = Y és ≺ X =≺ Y ). Ilyenre, adott rendezés szerinti lexikografikus rendezésként hivatkozunk. Az X, Y halmazokon értelmezett f bináris reláció f¨ uggvény, ha bármely x ∈ X esetén pontosan egy olyan y ∈ Y létezik, hogy (x, y) ∈ f . Ez jelölésben f : X → Y , és, ha (x, y) ∈ f , akkor y = f (x). Az X halmazt a f értelmezési tartom´ any´ anak h´ıvjuk (vagy máshogy : f az X-en értelmezett), Y -t az f képhalmazának, az f (X) halmazt pedig az f értékkészletének. Azt a f¨ uggvényt, amelyet u ´ gy kapunk, hogy el˝oször a f , majd az g f¨ uggvényt alkalmazzuk g ◦ f -el jelölj¨ uk. Predik´ atum egy f¨ uggvény, ha az értékkészlete az {igaz, hamis} halmaz. Sz¨ urjekt´ıv egy f¨ uggvény, ha a képhalmaza megegyezik az értékkészletével, injekt´ıv (vagy más néven egy-egy értelm˝ u leképzés), ha az értelmezési tartomány bármely két k¨ ulönböz˝o eleméhez k¨ ulönböz˝o értéket rendel és bijekt´ıv (másképpen a f¨ uggvény egy bijekci´ o ), ha sz¨ urjekt´ıv és injekt´ıv is egyben. n z }| { Legyen H tetsz˝oleges halmaz. Az f : H × · · · × H → H f¨ uggvényt n változós m˝ uveletnek nevezz¨ uk. A H halmazon értelmezett kétváltozós ? m˝ uveletet asszociat´ıvnak nevezz¨ uk, ha tetsz˝oleges a, b, c ∈ H esetén (a ? b) ? c = a ? (b ? c). A (H, ?) párt félcsoportnak nevezz¨ uk, ha ? a H-n értelmezett asszociat´ıv m˝ uvelet. A (H, ?) félcsoport elemein a H elemeit értj¨ uk. Ha a (H, ?) félcsoport elemei között létezik olyan e elem, amelyre e ? a = a ? e = a minden a ∈ ∈ H elemre, akkor e-t egységelemnek h´ıvjuk és egységelemes félcsoportól beszél¨ unk. Ha egy egységelemes félcsoportban minden elemnek létezik inverze, akkor csoportr´ ol beszél¨ unk. Az a ´ inverzére (a−1 ) teljes¨ uljön, hogy a ? a−1 = a−1 ? a = e. A csoport Abel-csoport, ha a ? m˝ uvelet ´ kommutat´ıv (a ? b = b ? a) is. A (H, ?, +) hármas egy gy˝ ur˝ u, amennyiben (H, ?) Abel csoport, (H, +) félcsoport és a ?, + m˝ uveletek disztribut´ıvek egymásra nézve, azaz (a+b)?c = a?c+b?c. A ? és a + m˝ uveletek egységelemeit az 1 és a 0 szimbólumok jelölik. Testnek h´ıvjuk az olyan kommutat´ıv gy˝ ur˝ ut, ahol az 1 6= 0 és a 0-án k´ıv¨ ul a H minden elemének van inverze. A H halmaz felett értelmezett multihalmaznak vagy zs´ aknak nevezz¨ uk azt a halmazt, amelynek elemei olyan párok, amelyek els˝o tagja H egy eleme, második tagja pedig egy pozit´ıv egész szám. Egy multihalmazt szokás u ´ gy a´brázolni mintha olyan halmaz lenne, amely egy elemet többször is tartalmazhat. Ilyenkor a pár els˝o tagját annyiszor ´ırjuk le, amennyi a pár második tagja. Például a {(A,1), (C,3)}-at {A, C, C, C}-vel a´brázoljuk. A multihalmaz méretén a párok második tagjainak o¨sszegét, elemszámán pedig a párok számát értj¨ uk. Sokat fogjuk használni a sorozat fogalmát. Legyen S egy halmaz. Az f : N → S f¨ uggvényt az S felett értelmezett sorozatnak h´ıvjuk. Le´ırására az f (0), f (1), . . . helyett a hs 0 , s1 , . . .i


25

jelölést fogjuk használni. Véges sorozatok esetében az f értelmezési tartománya (általában az {1,2,. . . ,n}) véges halmaz. Véges sorozat hossza az értelmezési tartományának elemszáma. Az S = hs1 , s2 , . . . sn i, S 0 = hs01 , s02 , . . . s0n0 i sorozat konkatenációján az hs1 , s2 , . . . sn , s01 , s02 , . . . s0n0 i sorozatot értj¨ uk, és hS, S 0 i-el jelölj¨ uk.

2.2. Line´ aris algebra Legyen H egy test, amelynek elemeit skal´ aroknak h´ıvjuk. A H felett értelmezett vektortér egy V halmaz (amelynek elemei a vektorok ) és két bináris operátor (vektor o¨sszeadás : + és skalárral való szorzás : ·), amelyekre teljes¨ ul néhány axióma (1. u, v, w ∈ V -re u+(v +w) = (u+ +v)+w, 2. u+v =v+u, stb.). A W ⊆V halmazt altérnek nevezz¨ uk, ha zárt a vektorösszeadás és skalárszorzás m˝ uveletekre. Adott vektorhalmazt tartalmazó alterek metszetét a vektorhalmaz a ´ltal fesz´ıtett altérnek nevezz¨ uk. Ha a halmazból nem távol´ıthatunk el elemet a fesz´ıtett altér megváltoztatása nélk¨ ul, akkor a vektorhalmazt line´ arisan f¨ uggetlennek h´ıvjuk. A V altér egy b´ azisa egy olyan lineárisan f¨ uggetlen vektorhalmaz, amelynek fesz´ıtett altere V . A hagyományoknak megfelel˝oen az A i-edik sorából képzett vektort A i -vel jelölj¨ uk, pm´ Patrix T T 2 ||v||-vel a v vektor euklideszi normáját ( es v w-vel a v , w vektorok skaláris szorzatát i vi ) ´ P ( i viT wi ).

2.3. Gr´ afelm´ elet Ir´ any´ıtott gr´ af egy G = (V, E) pár, ahol V cs´ ucsok (vagy pontok ) véges halmaza, E pedig egy bináris reláció V -n. E elemeit éleknek nevezz¨ uk. Ha (u, v) ∈ E, akkor az u, v cs´ ucsok egymás szomszédai. Ir´ any´ıtatlan gr´ afr´ ol beszél¨ unk, ha az E reláció szimmetrikus. A c´ımkézett (vagy s´ ulyozott) gráfnál a cs´ ucsokhoz, c´ımkézett él˝ u (vagy éls´ ulyozott) gráfnál pedig az élekhez rendel¨ unk c´ımkéket. A c´ımkézett él˝ u gráfot s´ ulyozott gráfnak h´ıvjuk, ha a c´ımkék számokkal kifejezhet˝o s´ ulyokat jelentenek. A gráf méretén (|G|) a cs´ ucsok számát értj¨ uk. Egy cs´ ucs fok´ an a cs´ ucsot tartalmazó éleket értj¨ uk. Irány´ıtott gráfoknál megk¨ ulönböztet¨ unk kifokot és befokot. A G irány´ıtatlan gráf k-regul´ aris, ha minden cs´ ucs foka pontosan k. A G0 = (V 0 , E 0 ) gráf a G = (V, E) részgr´ afja, ha V 0 ⊆ V és E 0 ⊆ E. A G = (V, E) gráf 0 V ⊆V a ´ltal fesz´ıtett részgr´ afja (induced subgraph) az a G0 = (V 0 , E 0 ) gráf, ahol E 0 = {(u, v) ∈ ∈ E : u, v ∈ V 0 }. A G1 (V1 , E1 ) izomorf a G2 (V2 , E2 ) gráffal, jelölésben G1 ∼ = G2 , ha létezik φ : V1 → V2 bijekció, amelyre (u, v) ∈ E1 esetén (φ(u), φ(v)) ∈ E2 is fennáll. C´ımkézett gráfoknál emellett megkövetelj¨ uk, hogy az u cs´ ucs c´ımkéje megegyezzék a φ(u) c´ımkéjével minden u ∈ V 1 re, c´ımkézett él˝ u gráfnál pedig az (u, v) c´ımkéje egyezzen meg a (φ(u), φ(v)) él c´ımkéjével. Ha G∼ G, akkor automorfizmusr´ ol beszél¨ unk. = A gráfok a´brázolásának elterjedt módja a szomszédoss´ agi m´ atrix (adjacency matrix) és a szomszédoss´ ag lista. Az |G| × |G| méret˝ u A szomszédossági mátrix a ij eleme 1 (élc´ımkézett esetben az él c´ımkéje), ha a G gráf i-edik cs´ ucsából indul él a j-edik cs´ ucsba, k¨ ulönben 0. Természetesen a szomszédossági mátrixot a gráfon k´ıv¨ ul az határozza meg, hogy melyik cs´ ucsot h´ıvjuk az els˝onek, másodiknak, ... A szomszédossági mátrixot tehát a gráf és az f : : V → {1, . . . , |V |} bijekció adja meg. Hurokél nélk¨ uli, c´ımkézett gráfban a szomszédossági mátrix aii eleme az i cs´ ucs c´ımkéjét tárolja. A szomszédossági lista |G| darab lista, ahol az i-edik lista tárolja az i-edik cs´ ucs szomszédait.


26

Az u cs´ ucsot az u0 cs´ uccsal o¨sszeköt˝o k-hossz´ u u ´ton cs´ ucsoknak egy olyan (véges) hv0 , v1 , . . . , vk i sorozatát értj¨ uk, amelyre u = v0 , u0 = vk , és (vi−1 , vi ) ∈ E (i = 1,2, . . . , k). Egy u ´ t egyszer˝ u, ha a benne szerepl˝o cs´ ucsok páronként k¨ ulönböz˝ok. A hv 0 , v1 , . . . , vk i u ´ t k¨ or, ha v0 = vk , és az u ´ t legalább egy élt tartalmaz. Egy gráfot o ¨sszef¨ ugg˝ onek h´ıvunk, ha bármely két cs´ ucsa o¨sszeköthet˝o u ´ ttal. A körmenetes, irány´ıtás nélk¨ uli gráfot erd˝ onek h´ıvjuk. Ha az erd˝o o¨sszef¨ ugg˝o, akkor pedig f´ anak. Az olyan fát, amely tartalmazza egy G gráf minden cs´ ucsát, a G fesz´ıt˝ of´ aj´ anak h´ıvjuk. A gy¨ okeres f´ aban az egyik cs´ ucsnak kit¨ untetett szerepe van. Ezt a cs´ ucsot gy¨ okérnek nevezz¨ uk. A gyökérb˝ol egy tetsz˝oleges x cs´ ucsba vezet˝o (egyértelm˝ uen meghatározott) u ´ t a´ltal tartalmazott bármely y cs´ ucsot az x o ˝sének nevez¨ unk. Azt is mondjuk ekkor, hogy x az y lesz´ armazottja. Ha x 6= y, akkor val´ odi o ˝sr˝ ol és val´ odi lesz´ armazottr´ ol beszél¨ unk. Ha az u ´ ton x 1 élen kereszt¨ ul érhet˝o el y-ból, akkor x az y gyereke és y az x sz¨ ul˝ oje. Ha két cs´ ucsnak ugyanaz a sz¨ ul˝oje, akkor testvéreknek mondjuk o˝ket. A G = (V, E) gráf S, V \S v´ ag´ as´ an a V halmaz kétrészes part´ıcióját értj¨ uk. Az (u, v) ∈ E él keresztezi az S, V \S vágást, ha annak egyik végpontja S-ben a másik V \S-ben van. Egy vágás s´ ulya – s´ ulyozott gráfok esetében – megegyezik a vágást keresztez˝o élek o¨sszs´ ulyával.

2.4. Matematika logika 2.4.1. Ít´ eletlogika 2.4.2. Els˝ orend˝ u logika

2.5. Val´ osz´ın˝ us´ egsz´ am´ıt´ as Feltételezz¨ uk, hogy az olvasó tisztában van a diszkrét/folytonos val´ osz´ın˝ uségi v´ altoz´ o, valósz´ın˝ uségi változó eloszl´ as´ anak, s˝ ur˝ uségf¨ u ggv´ e ny´ e nek, eloszl´ a sf¨ u ggv´ e ny´ e nek, a val´ o sz´ ın˝ u s´ e gi P változó v´ arhat´ o értékének (E[X] = µ = x · p(x)), annak fontos tulajdonságait (E[aX + 2 + bY ] = aE[X] + bE[Y ], E[X] = E[E(X|Y )]) és sz´ or´ as´ anak (D 2 [X] = σX = E[(X − µ)2 ]) vagy a´ltalánosan az n-edik centr´ alis momentumok fogalmával (D n [X] = E[(X −µ)n ]), továbbá ismeri két valósz´ın˝ uségi változó közötti kovarianciát (Cov(X, Y ) = E[(X − µ)(Y − ν)) és korrelációt ) (Corr(X, Y )= Cov(X,Y ). A s˝ ur˝ uségf¨ uggvény (vagy diszkrét eloszlás) maximumhelyét az eloszlás σX σY móduszának h´ıvjuk. Az F eloszlásf¨ uggvény p-kvartilisét az a K szám adja, amelyre F (K) < p és F (K + 0) ≥ p. Az 1/2-hez tartozó kvartilist medi´ annak nevezz¨ uk.

2.5.1. Nevezetes eloszl´ asok A következ˝o nevezetes eloszlásokkal fogunk találkozni tanulmányaink során. Binomi´ alis ´ es Poisson eloszl´ as Legyen (Ω, F, P) Kolmogorov-féle valósz´ın˝ uségi mez˝o, A ∈ F pozit´ıv valósz´ın˝ uség˝ u esemény, p = P(A) > 0. Hajtsunk végre n-szeres f¨ uggetlen k´ısérletsorozatot és legyen X értéke annyi, ahányszor A bekövetkezett a k´ısérletsorozatban. X-et ekkor n, p paraméter˝ u binomiális eloszlás´ u valósz´ın˝ uségi változónak nevezz¨ uk, jele X ∈ B(n, p). X eloszlása p k = P (X = k) = = nk pk (1 − p)n−k , várható értéke E(X) = np, szórása σ 2 (X) = np(1 − p).


27

k A Poisson-eloszlás a binomiális eloszlás határesete. lim n→∞,p→0,np=λ nk pk q n−k = λk! e−λ . A Moivre-Laplace tétel szerint, az n-ed rend˝ u p paraméter˝ u binomiális eloszl´ as standardiz´ altja n P n k n−k minden határon t´ ul való növelése esetén normális eloszlás´ u : ∀x∈R:limn→∞ k−np = √ <x k p q npq

= Φ(x)

Hipergeometrikus eloszl´ as Tegy¨ uk fel, hogy van N k¨ ulönböz˝o elem¨ unk, amelyb˝ol R darab rossz. A hipergeometrikus eloszlás adja meg annak az esélyét, hogy X darab rossz elem lesz, ha az N elemb˝ol n darabot kivesz¨ unk véletlenszer˝ uen. Elemi kombinatorikus u ´ ton a valósz´ın˝ uség kiszám´ıtható (0 ≤ X ≤ n) : R N −R P(X, N, R, n) =

X

n−X N n

A fenti s˝ ur˝ uségf¨ uggvénnyel rendelkez˝o diszkrét valósz´ın˝ uségi eloszlást h´ıvjuk hipergeometrikus eloszl´ asnak. Amennyiben nN , akkor a hipergeometrikus eloszlást közel´ıthetj¨ uk az n, R/N paraméter˝ u binomiális eloszlással. Norm´ alis eloszl´ as χ2 eloszl´ as Legyenek ξ1 , ξ2 ,P . . . , ξn egymástól f¨ uggetlen, standard normális eloszlás´ u valósz´ın˝ uségi változók. Ekkor az ni=1 ξi2 valósz´ın˝ uségi változó eloszlását n paraméter˝ u χ2 eloszl´ asnak (χ2n ) nevezz¨ uk.

2.5.2. Egyenl˝ otlens´ egek Legyen X egy E[X] várható érték˝ u valósz´ın˝ uségi változó. A Markov egyenl˝otlenség szerint E[|X|] P(|X| ≥ a) ≤ a , ahol a > 0. A Hoeffding-korlát a mintavételzéssel kapcsolatos a´ll´ıtások alapja. 2.1. lemma. Legyen Xi , 1 ≤ i ≤ n µ v´ arhat´ o érték˝ u, f¨ uggetlen, azonos eloszl´ as´ u val´ osz´ın˝ uségi v´ altoz´ ok és a ≤ Xi ≤ b minden i-re. Ekkor tetsz˝ oleges λ > 0-ra fenn´ all a k¨ ovetkez˝ o egyenl˝ otlenség : h 1 X i 2 2 P Xi − µ ≥ λ ≤ 2e−2λ n/(b−a) . n i=1

2.5.3. Entr´ opia

Legyen X egy diszkrét valósz´ın˝ uségi változó, amely értékeit egy X halmazból veheti fel. Az lX = − log2 p(X) valósz´ın˝ uségi változót az X entr´ opias˝ ur˝ uségének nevezz¨ uk. X entrópiáját – H(X)-et – ezen változó várható értékével definiáljuk : X H(X) = − p(x) log2 p(x). x∈X


28

Az entrópia valamiképpen a változó bizonytalans´ agát fejezi ki. Ha X elemszáma rögz´ıtett és az X változó csak egy értéket vehet fel (mert az egyik érték valósz´ın˝ usége 1), akkor H(X) értéke 0 (nincs bizonytalanság), ha pedig X eloszlása egyenletes eloszlást követ, akkor az entrópia a maximumát veszi fel, log2 (|X|)-t. Legyen X és Y két diszkrét érték˝ u valósz´ın˝ uségi változó. Az X-nek az Y feltétellel vett feltételes entrópiája : XX H(X|Y ) = − p(x, y) log2 p(x|y), y∈Y x∈X

vagy egy kicsit a´talak´ıtva kapjuk, hogy X X H(X|Y ) = − p(y) p(x|y) log2 p(x|y). y∈Y

x∈X

Be lehet bizony´ıtani, hogy H(X|Y )=H(XY )−H(Y ), ami informálisan u ´ gy lehet megfogalmazni, hogy a feltételes entrópia megadja, hogy mennyi bizonytalanság marad X-ben, ha elvessz¨ uk az Y bizonytalanságát. A feltételes entrópia számos tulajdonsága köz¨ ul mi csak az alábbit fogjuk felhasználni : 0 ≤ H(X|Y ) ≤ H(X).

2.6. Statisztika A statisztikában a´ltalában X1 , X2 , . . . , Xn f¨ uggetlen, azonos eloszlás´ u valósz´ın˝ uségi változók vannak megadva, amiket mint´ aknak nevez¨ unk. Az eloszlást nem ismerj¨ uk pontosan, de rendelkezés¨ unkre a´llnak megfigyelések. Legyenek X1 , X2 , . . . , Xn f¨ uggetlen, azonos eloszlás´ u valósz´ın˝ uségi változók. Ekkor a ¯ = X1 +X2 +···+Xn valósz´ın˝ X u s´ e gi v´ a ltoz´ o t empirikus k¨ o z´ e pnek, vagy minta´ atlagnak, a s ∗2 n = n P n 1 2 ¯ uségi változót pedig korrig´ alt empirikus szor´ asnégyzetnek ne= n−1 i=1 (Xi − X) valósz´ın˝ vezz¨ uk. ∗2 valósz´ın˝ uségi változó eloszlása χ2n , A χ2 eloszlás defin´ıciójából következik, hogy az (n−1)s σ2 amennyiben a s∗2 σ szórás´ u, normális eloszlás´ u valósz´ın˝ uségi változók korrigált empirikus szorásnégyzetét jelöli 2.2. defin´ıci´ o. Legyenek X és Y két olyan val´ osz´ın˝ uségi v´ altoz´ o, amelyek eloszl´ asa rendre χ 2n és χ2m . Ekkor a Z = YX/n val´ osz´ın˝ uségi v´ altoz´ o eloszl´ as´ at Fn,m eloszl´ asnak h´ıvjuk. /m

2.6.1. Hipot´ ezisvizsg´ alat A hipotézisvizsgálat feladata mindig valamilyen a´ll´ıtás helyességének vizsgálata. Ezt az a´ll´ıtást nullhipotézisnek nevezz¨ uk, jele H0 . A nullhipotézis a´ltalában egy valósz´ın˝ uségi változó valamely paraméterére vagy a változó viselkedésére vonatkozó a´ll´ıtás. Az a´ll´ıtás igazolásához vagy elvetéséhez k´ısérletezgetések, minták a´llnak rendelkezés¨ unkre. Ha a minták alapján a nullhipotézist elvetj¨ uk, holott az igaz, akkor els˝ ofaj´ u hib´ at követ¨ unk el. Ellenkez˝o esetben – amikor a nullhipotézis hamis, de mi elfogadjuk – m´ asodfaj´ u hib´ ar´ ol beszél¨ unk. Pusztán minták seg´ıtségével nem tudunk teljesen biztos választ adni. A gyakorlatban egy paraméterrel (α)


29

rögz´ıtik az els˝ofaj´ u hiba elkövetésének megengedett valósz´ın˝ uségét. Az 1 − α értéket a pr´ oba szintjének h´ıvjuk. ¨ Osszefoglalva tehát, adott egy a´ll´ıtás, egy paraméter (α) és minták sorozata. Feladatunk, hogy a minták alapján cáfoljuk vagy igazoljuk az a´ll´ıtást u ´ gy, hogy bizony´ıthatóan α-nál kisebb legyen annak valósz´ın˝ usége, hogy az a´ll´ıtás igaz, holott mi cáfoljuk. A hipotézisvizsgálatnál a minták eredményeit felhasználva kiszám´ıtunk egy u ´ n. pr´ obastatisztika értéket, és ezt vetj¨ uk 1 o¨ssze egy ismert eloszlással. Az α-nak célszer˝ u kis (0.1 és 0.01 közötti) értéket választani .

2.6.2. A binomi´ alis pr´ oba 2.6.3. Az F -pr´ oba Az F -próba arra szolgál, hogy két f¨ uggetlen, normális eloszlás´ u valósz´ın˝ uségi változó (X, Y ) szórásának egyenl˝oségét eldönts¨ uk. H0 : σ X = σ Y . (n −1)s∗2

(n −1)s∗2 Y

Tudjuk, hogy X σ2 X és Y σ2 X Y a nullhipotézis fennáll, akkor az

χ2 eloszlás´ uak (nX − 1) illetve (nY − 1) paraméterrel. Ha F=

s∗2 X s∗2 Y

próbastatisztika F -eloszlás´ u (nX − 1, nY − 1) paraméterrel. Azonban F1 is F -eloszlás´ u (nY − ∗ − 1, nX − 1) paraméterrel, ezért a gyakorlatban F = max{F,1/F } ≥ 1 statisztikát szokás használni.

2.6.4. A χ2 -pr´ oba A χ2 próbák az alábbi tételt használják fel. 2.3. t´ etel. Legyen A1 , A2 , . . . , Ar egy teljes eseményrendszer (r ≥ 3), legyen pi = P(Ai ) > 0, i = =1, . . . , r. Ismételj¨ uk a k´ısérletet n-szer egym´ ast´ ol f¨ uggetlen¨ ul. Jel¨ olje X i az Ai esemény bek¨ ovetkezésének sz´ am´ at. Bel´ athat´ o, hogy ekkor a r X (Xj − npj )2 j=1

npj

ashoz konverg´ al. val´ osz´ın˝ uségi v´ altoz´ o eloszl´ asa n → ∞ esetén χ 2r−1 eloszl´ A χ2 eloszlás kvantiliseit f¨ uggvény-táblázatokban megtalálhatjuk. A χ2 -próba legfontosabb alkalmazási ter¨ uletei az (1.) illeszkedés-, (2.) f¨ uggetlenség- és (3.)homogenitásvizsgálat. Témánkhoz a f¨ uggetlenség-vizsgálat tartozik hozzá, ´ıgy a továbbiakban ezt 2 részletezz¨ uk. A χ próba iránt érdekl˝od˝oknek a [84] magyar nyelv˝ u irodalmat ajánljuk. 1

Gondolkozzunk el azon, hogy mi t¨ orténne, ha α-nak nagyon kis értéket v´ alasztan´ ank!


30

2.6.5. F¨ uggetlens´ egvizsg´ alat Legyen A1 , A2 , . . . , Ar és B1 , B2 , . . . , Bs két teljes eseményrendszer. Végezz¨ unk n k´ısérletet. Nullhipotézis¨ unk az, hogy az eseményrendszerek f¨ uggetlenek. H0 : P(Ai , Bj ) = P(Ai )P(Bj ),

i = 1, . . . , r

j = 1, . . . , s

Ha az események valósz´ın˝ uségei adottak, akkor tiszta illeszkedés vizsgálati feladatról beszél¨ unk, ahol H0 : P(Ai ∩ Bj ) = pi qj hiszen pi , qj értékek adottak. Jelölje kij az Ai ∩ Bj esemény bekövetkezésének számát. Ekkor ki kell szám´ıtanunk a r X s X (kij − npi qj )2 χ2 = npi qj i=1 j=1

u ´ n. próbastatisztika értéket. Jobban megvizsgálva χ2 -et láthatjuk, hogy az egy P (megfigyelt érték - várt érték)2 jelleg˝ u kifejezés. Amennyiben χ2 kicsi, akkor a megfivárt érték gyelt értékek közel vannak azokhoz, amit H0 fennállása esetén vártunk, tehát a nullhipotézist elfogadjuk. Hogy pontosan mit jelent az, hogy kicsi”, azt a 2.3-as tétel alapján χ2rs−1 és az α pa” raméter határozza meg. Táblázatból keress¨ uk ki, hogy a χ2rs−1 eloszlás hol veszi fel az 1 − α értéket. Amennyiben ez nagyobb a fent kiszám´ıtott χ2 értéknél, akkor a nullhipotézist elfogadjuk, ellenkez˝o esetben elvetj¨ uk. A gyakorlatban sokkal többször fordul el˝o az az eset, amikor az események valósz´ın˝ uségeit nem ismerj¨ uk. Ekkor a valósz´ın˝ uségeket az eseményekP relat´ıv gyakoriságával becs¨ ulj¨ uk meg. Jelölj¨ uk az Ai esemény gyakoriságát ki. -vel, tehát ki. = sj=1 kij és hasonlóan Bj esemény gyakoriságát k.j -vel. χ2 próbák során az adatok szemléltetésének gyakran használt eszköze az u ´ n. kontingencia-táblázat. Ez egy többdimenziós táblázat, amely celláiban a megfelel˝o esemény bekövetkezésének száma található. Egy ilyen 2-dimenziós kontingencia-táblázatot láthatunk a következ˝o a´brán. P B1 B2 . . . Bs A1 A2 .. .

k11 k21 .. .

k12 k22 .. .

... ... .. .

k1s k2s .. .

k1. k2. .. .

Ar P

kr1 k.1

kr2 k.2

... ...

krs k.s

kr. n

Az Ai ∩ Bj megfigyelt értéke kij , várt értéke H0 esetén n · χ2 =

ki. k.j 2 ) n ki. k.j n

r X s (kij − X i=1 j=1

ki. k.j · . Ezek alapján χ2 értéke : n n


31

Mivel a f¨ uggetlenség fennállása esetén r − 1 darab pi -t és s − 1 darab qj valósz´ın˝ uséget kell megbecs¨ ulni, ´ıgy a fenti H0 fennállása esetén χ2rs−1−(r+s−2) = χ2(r−1)(s−1) eloszlás´ u. A χ2 eloszlás közel´ıtése csak abban az esetben pontos, ha a kij értékek nagyok. Persze nincs pontos szabály arra nézve, hogy mennyire kell nagynak lennie. Azt szokták mondani, hogy a kontingencia táblázat elemeinek 90%-a nagyobb legyen o¨tnél.

2.6.6. Student t-pr´ oba

2.7. Algoritmus-elm´ elet Terjedelmi okok miatt csak felsorolni tudjuk azokat az algoritmusokat, amelyeket az olvasónak ismernie kell. Ezek pedig : lineáris-, bináris keresés, mélységi, szélességi bejárás, Kruskal algoritmusa minimális s´ uly´ u fesz´ıt˝ofa meghatározásához stb. Emellett feltételezz¨ uk, hogy az olvasó tisztában van az NP-teljesség (vagy a´ltalánosabban a bonyolultság) elméletének alapjaival.

2.8. Adatstrukt´ ur´ ak Feltételezz¨ uk, hogy az olvasó tisztában van a lista (vektor) és a tömb fogalmával. Az adatbányászatban további közkedvelt adatstrukt´ urái az u ´ n. sz´ ofa (trie), vagy más néven prefixfa (prefix-tree), a piros-fekete fa, illetve a hash-tábla.

2.8.1. Sz´ of´ ak A szófát eredetileg szótár szavainak tárolásánál alkalmazták, annak érdekében, hogy gyorsan el lehessen dönteni, hogy egy adott szó szerepel-e a szótárban [42], [61]. A szavak az abc felett értelmezett sorozatok, ´ıgy a´ltalánosan azt mondhatjuk, hogy egy szófa egy adott véges elemhalmaz feletti sorozatok tárolására és gyors visszakeresésére alkalmas adatstrukt´ ura. A szófa angol neve (trie, amit u ´ gy ejt¨ unk, mint a try szót) a visszakeresés angol ford´ıtásából származik (retrieval). A továbbiakban az alaphalmazt I-vel, az alaphalmaz felett értelmezett, adott sorozatok halmazát szótárnak h´ıvjuk. A 2.1 a´brán egy szófát láthatunk, mely az C, F C, F B, CBP , F CAM P , F CABM sorozatokat tárolja. A szófa egy (lefelé) irány´ıtott gyökeres c´ımkézett fa. Egy d-edik szint˝ u pontból csak d+1-edik szint˝ u pontba mutathat él. Néha a hatékonyság kedvéért minden pontból a pont sz¨ ul˝ojére is mutat él. A gyökeret 0. szint˝ unek tekintj¨ uk. A c´ımkék az I-nek egy-egy elemei. Minden pont egy elemsorozatot reprezentál, amely a gyökérb˝ol ebbe a pontba vezet˝o éleken található elemekb˝ol a´ll. Akkor tartalmazza a szófa az S sorozatot, ha van olyan pont, amely az S-t reprezentálja. Ha egy sorozatot tartalmaz egy szófa, akkor annak tetsz˝oleges prefixét is tartalmazza. A prefix azonban nem biztos, hogy eleme a szótárnak. Ezt a problémát kétféleképpen lehet kik¨ uszöbölni. Egyrészr˝ol megk¨ ulönböztet¨ unk elfogad´ o és nem elfogad´ o pontokat. Egy sorozatot akkor tartalmazza a szófa, ha van olyan elfogadó a´llapot, amely a sorozatot reprezentálja. Másrészr˝ol bevezethet¨ unk egy speciális elemet, amit minden sorozat végére illeszt¨ unk, továbbá sorozatot csak levél reprezentálhat. A szófának két implementációját k¨ ulönböztetj¨ uk meg attól f¨ ugg˝oen, hogy milyen technikát alkalmazunk az élek tárolására. Az u ´ n. t´ abl´ azatos implement´ aci´ oban (tabular implementation)


32 0

F C

1

C 2

B

3

B 4

5 P

A M 8

6

7

B 9

P 10

M 11

2.1. a´bra. Példa szófára [61] minden ponthoz egy rögz´ıtett hossz´ uság´ u, mutatókat tartalmazó vektort vesz¨ unk fel. Az i-edik mutató mutat az i-edik elemhez tartozó él végpontjára. Ha a pontnak nincs ilyen c´ımkéj˝ u éle, akkor a mutató értéke NULL. A vektor hossza az I elemszámával egyezik meg. A l´ ancolt list´ as implement´ aci´ oban [42] az éleket egy láncolt listában tároljuk. A lista elemei élc´ımke, gyermekmutató párok. A láncolt lista következ˝o elemére mutató mutatókat megspórolhatjuk, ha egy vektort alkalmazunk, aminek hossza megegyezik a pont éleinek számával, és elemei szintén c´ımke, mutató párok. Ez azért is jó megoldás, mert egy lépéssel tudunk tetsz˝oleges index˝ u elemre lépni (a c´ımke, mutató pár memóriasz¨ ukségletének ismeretében), és nem kell a mutatókon kereszt¨ ul egyesével lépegetn¨ unk. Szófák esetében a legfontosabb elemi m˝ uvelet annak eldöntése, hogy egy adott pontnak van-e adott c´ımkéj˝ u éle, és ha van, akkor ez hova mutat. Táblázatos implementációnál ezt a feladatot egy lépésben megoldhatjuk a megfelel˝o index˝ u elem megvizsgálásával. Láncolt listás, illetve változó hossz´ uság´ u vektor esetén a megoldás lassabb m˝ uvelet. A vektor minden párját ellen˝orizn¨ unk kell, hogy a pár c´ımkéje megegyezik-e az adott c´ımkével. A hatékonyságot növelhetj¨ uk, ha a párokat c´ımkék szerint rendezve tároljuk, és bináris keresést végz¨ unk. ´ Erdemes o¨sszehasonl´ıtanunk a két vektoros implementációban a pontok memóriaigényét. Amennyiben a mutatók, és a c´ımkék is 4 bájtot foglalnak, akkor a táblázatos implementációban egy pont memóriaigénye (a vektor fejléc memóriaigényét˝ol eltekintve) |I|·4 bájt, a listás implementációé n · 2 · 4 bájt, ahol n az adott pontból induló élek száma, amire igaz, hogy 0 ≤ n ≤ |I|. Ha a szófa pontjai olyanok, hogy kevés él¨ uk van, akkor a listás implementációnak lesz kevesebb memóriára sz¨ uksége, sok élnél azonban táblázatos implementáció a jobb megoldás. A két technikát o¨tvözhetj¨ uk akár egy adott szófán bel¨ ul is [156], [188] : ha a pont éleinek száma meghalad egy korlátot (általában I/2-t), akkor táblázatos implementációt használunk, ellenkez˝o esetben maradunk a listás megoldásnál. Megeml´ıt¨ unk két szófa leszármazottat. Ezek a nyesett sz´ of´ ak (pruned trie) és a PATRICIA f´ ak. Mindkét fa abban k¨ ulönbözik az eredeti szófától, hogy kiiktatják az olyan utakat a fából, amelyekben nincsen elágazás. A nyesett fánál ezt kizárólag levélhez vezet˝o utakkal teszik, PATRICIA fáknál ez a korlátozás nem a´ll fenn.


33

Patr´ıcia-f´ ak Egy irány´ıtott utat láncnak h´ıvunk, ha minden pontjának csak egy gyereke van. A Patr´ıciafa a szófából származtatható u ´ gy, hogy a szófa nem b˝ov´ıthet˝o láncait egy-egy éllé vonjuk o¨ssze. Az u ´ j él a lánc utolsó pontjába mutat, c´ımkéje a lánc éleinek c´ımkéib˝ol a´lló sorozat. Ha a láncösszevonást csak a levélben végz˝od˝o láncokra hajtjuk végre, akkor u ´ n Patr´ıcia* fát kapunk. Ha a szófa sok láncot tartalmaz, akkor a Patr´ıcia-fa sokkal hatékonyabb. Ellenkez˝o esetben viszont több memóriát használ, mivel a c´ımkéket vektorokban tároljuk, ami egyetlen elem tárolása esetén nem célravezet˝o a nagy többletköltség miatt.

2.8.2. Piros-fekete f´ ak A piros-fekete (RB-tree vagy symmetric binary B-trees) fák a kiegyens´ ulyozott bináris fák (balanced binary tree) egy t´ıpusa. Minden cs´ ucsnak sz´ıne van, hagyományosan piros vagy fekete. Speciális forgatásokat használó besz´ urás m˝ uvelet biztos´ıtja, hogy bármely a gyökérb˝ol levélbe vezet˝o u ´ t hossza ne legyen nagyobb, mint a legrövidebb ilyen u ´ t hosszának kétszerese. Egy piros-fekete fa a következ˝o tulajdonságokkal rendelkezik : I. Minden cs´ ucsnak a sz´ıne piros vagy fekete. II. Minden levél sz´ıne fekete. III. Minden piros cs´ ucsnak mindkét fia fekete. IV. Bármely két, azonos cs´ ucsból induló, levélig vezet˝o u ´ ton ugyanannyi fekete cs´ ucs van. A fentiekb˝ol következik, hogy bármely n bels˝o cs´ uccsal rendelkez˝o piros-fekete fa magassága legfeljebb 2 lg(n + 1). A bizony´ıtás és a fa ép´ıtésének menete megtalálható az irodalomban (pl. [101]).

2.8.3. Hash-t´ abla A hash-tábla magyar elnevezése has´ıtó-tábla (,), de mi ezt a szót nem fogjuk használni. A hash-tábla elemek gyors elhelyezésére és visszakeresésére használt adatstrukt´ ura. A táblázatnak cellái vannak, amibe elemeket helyezhet¨ unk. Minden cellának van egy c´ıme (vagy indexe). A hash-táblás tárolásban központi szerepet tölt be az elemeken értelmezett u ´ n. hash-f¨ uggvény, ami megadja az elem hash-értékét. Egy elemet arra a c´ımre helyez¨ unk be a hash-táblában, amelyet a hash-értéke megad. El˝ofordulhat, hogy k¨ ulönböz˝o elemekhez a hash-f¨ uggvény ugyanazokat a hash-értéket rendeli. Ezt u ¨tk¨ ozésnek h´ıvjuk. A hash-táblákról o¨nmagában fejezeteket lehet ´ırni, ennyi bevezet˝o azonban elég ahhoz, hogy megérts¨ uk a jegyzet további részeit.

2.9. Sz´ am´ıt´ og´ ep-architekt´ ur´ ak Sok kutató alkalmazza a k¨ uls˝o táras modellt az algoritmusának hatékonyságának vizsgálatakor. Mára az o´riási memóriaméreteknek köszönhet˝oen a legtöbb adatbázis elfér a memóriában, valamilyen sz˝ urt formában. Ilyen esetekben az elemzéshez használt modell leegyszer˝ usödik az egyszer˝ ubb közvetlen hozzáférés˝ u (RAM-) modellre (amely Neumann-modell


34

[178] néven is ismert, mivel a magyar sz¨ uletés˝ u Neumann János javasolta el˝oször ezt az architekt´ urát). A programokat olyan modern processzorokon futtatják, amely sokkal kifinomultabb a RAM-modellnél. A modell t´ ulzott egyszer˝ us´ıtése ahhoz vezet, hogy az elemzéseknek semmi köze nincs a valósághoz. Az u ´ j modell u ´ j elvárásokat támaszt az algoritmusokkal szemben. Ezekr˝ol egy kiváló a´ttekintés olvasható a [120] tanulmányban. A modern processzorok legfontosabb sajátossága a többszint˝ u memória és a cs˝ovezetékes (pipeline-) feldolgozás.

2.9.1. T¨ obbszint˝ u mem´ oria, adatlokalit´ as A memória nem egyelten nagy blokk, sokkal inkább k¨ ulönböz˝o méret˝ u, késleltetés˝ u memóriákból a´lló hierarchikus rendszer. Minél nagyobb a memória mérete, annál több id˝o kell a hozzáféréshez. A hierarchia elemei, méret szerint növekv˝o sorrendben a következ˝ok : regiszterek, pár kilobájtos els˝oszint˝ u gyors´ıtótár, pár megabájtos másodszint˝ u gyors´ıtótár, esetleges harmadszint˝ u gyors´ıtótár, rendszermemória és merevlemez. Az adatot a rendszermemóriából a másodszint˝ u gyors´ıtótárba, a másodszint˝ ub˝ol az els˝oszint˝ u gyors´ıtótárba blokkonként másolhatjuk. A blokkméret egy Pentium 4-es processzor esetén 128 bájt. A blokkonkénti feldolgozás más megvilág´ıtásba helyezi az algoritmusok vizsgálatát : egyetlen bit eléréséhez és beolvasásához egy lass´ u memóriából ugyanannyi id˝o kell, mint a bitet tartalmazó teljes blokk eléréséhez és beolvasásához. Másik adat elérése ugyanebben a blokkban viszont nem igényli már a hozzáférést a lass´ u memóriához. Így rendk´ıv¨ ul fontos követelménnyé válik az adatlokalitás, azaz hogy az adatok, amelyeket id˝oben egymáshoz közel dolgozunk fel, a memóriában is közel legyenek egymáshoz. Az adatot feldolgozásakor be kell hozni a regiszterekbe. El˝ofordulhat, hogy már eleve ott van, mert az el˝oz˝o m˝ uveletekhez sz¨ ukség volt rá. A korlátozott szám´ u regiszterek miatt azonban sokkal valósz´ın˝ ubb, hogy az egyik gyors´ıtótárban vagy a rendszermemóriában helyezkedik el. S˝ot, az is lehet, hogy a merevlemezen található, ha az algoritmus memóriaigénye annyira nagy, hogy lapozásra van sz¨ ukség. Ha a másodszint˝ u gyors´ıtótárban vagy a rendszermemóriában helyezkedik el a k´ıvánt adat, akkor az adathozzáférés u ´ n. cache miss-t okoz. Am´ıg ez az adat beker¨ ul a regiszterekbe, a processzor végrehajthat más m˝ uveleteket (ezer alapm˝ uvelet, például o¨sszeadás elvégzésére képes ez id˝o alatt), ennek ellenére a teljes´ıtménye messze elmaradhat ilyenkor a maximálistól. Tehát az adatstrukt´ ura, algoritmus pár tervezésekor törekedn¨ unk kell a minél jobb adatlokalitásra a cache miss-ek elker¨ ulése érdekében.

2.9.2. Cs˝ ovezet´ ekes feldolgoz´ as, el´ agaz´ as-el˝ orejelz´ es A programozók a´ltal használt m˝ uveleteket a ford´ıtó mikroutas´ıtások sorozatára bontja. A m˝ uveleteket nem k¨ ulön-k¨ ulön, egymás után hajtjuk végre, hanem párhuzamosan dolgozzuk fel o˝ket, cs˝ovezeték használatával. Sajnos azonban az adatf¨ ugg˝oség és a feltételes ugrások sokat rontanak a párhuzamos feldolgozás hatékonyságán. Adatf¨ ugg˝oségr˝ol akkor beszél¨ unk, ha egy utas´ıtás egy el˝oz˝o utas´ıtás eredményét˝ol f¨ ugg. Elágazás-el˝orejelzésnél megjósoljuk a feltétel kimenetét, és betöltj¨ uk a cs˝ovezetékbe az ennek megfelel˝o utas´ıtásokat. Ha a jóslás hamisnak bizonyul, akkor a cs˝ovezetéket ki kell u ¨ r´ıteni, és be kell tölteni a helyes utas´ıtásokat. Ezt a problémát gyakran kik¨ uszöbölhetj¨ uk k¨ ulönböz˝o technikák alkalmazásával, (mint például kódátrendezéssel) amelyet automatikusan elvégez a ford´ıtó. Szám´ıtásigényes algoritmus tervezésekor azonban nek¨ unk kell u ¨ gyeln¨ unk az adatf¨ uggetlenségre és az elágazás-el˝orejelzésre.


35

A cs˝ovezetékes feldolgozás lehet˝ové teszi, hogy egy o´rajel alatt több m˝ uveletet is elvégezz¨ unk. A fent eml´ıtett problémák miatt azonban a processzor a´tlagos teljes´ıtménye messze nem éri el az optimumot. A felesleges feltételek ronthatják a hatékonyságot. Az elágazásel˝orejelzés intelligens olyan szempontból, hogy ha egy feltétel kimenete sohasem változik, akkor a processzor ezt figyelembe veszi és a kés˝obbiekben ennek megfelel˝oen jósol. Így a mindig igaz (vagy hamis) feltételek nem befolyásolják a hatékonyságot.

3. fejezet El˝ ofeldolgoz´ as, hasonl´ os´ agi f¨ uggv´ enyek Ebben a fejezetben ismertetj¨ uk, hogy milyen elterjedt mértékek vannak elemek közötti hasonlóságra majd rátér¨ unk a legfontosabb el˝ofeldolgozási m˝ uveletekre. Mindenek el˝ott azt kell tisztáznunk, hogy milyen t´ıpus´ u attrib´ utumok léteznek matematikus szemmel.

3.1. Attrib´ utum t´ıpusok Jelölj¨ uk az A attrib´ utum két értékét a-val és a0 -vel. I. A kateg´ oria t´ıpus´ u (nominal ) attrib´ utumnál az attrib´ utum értékei között csak azonosságot tudunk vizsgálni. Tehát csak azt tudom mondani, hogy a = a0 vagy azt, hogy a 6= a0 . A kategória t´ıpus´ u attrib´ utum egy speciális esete a bin´ aris attrib´ utum, ahol az attrib´ utum csak két értéket vehet fel. A kategória t´ıpus´ u attrib´ utumokat az irodalom néha felsorol´ as (enumerated) vagy diszkrét t´ıpusnak is h´ıvja. Másodlagos jelentés¨ uk miatt a tanulmányban ezeket az elnevezéseket nem használjuk. Például a felsorolás t´ıpus eml´ıtésénél a legtöbb informatikusnak a C++, java, C#-beli felsorolás t´ıpus´ u változó jut eszébe, amelyek mindig egyértelm˝ u megfeleltetésben a´llnak egy egész számmal. II. A sorrend t´ıpus´ u (ordinal ) attrib´ utumoknál az értékeket sorba tudjuk rendezni, azaz az attrib´ utum értéken teljes rendezést tudunk megadni. Ha tehát a 6= a0 , akkor még azt is tudjuk, hogy a > a0 és a < a0 köz¨ ul melyik igaz. III. Ha az eddigiek mellett meg tudunk adni egy + f¨ uggvényt, amivel az elemek csoportot alkotnak, akkor intervallum t´ıpus´ u (interval scale) attrib´ utumról beszél¨ unk. IV. Ha egy intervallum t´ıpus´ u attrib´ utumnál meg lehet adni zérus értéket, vagy pontosabban az attrib´ utum elemei gy˝ ur˝ ut alkotnak, akkor az attrib´ utum ar´ any sk´ al´ aj´ u (ratio scale). Az arány skáláj´ u attrib´ utumot gyakran fogjuk val´ os attrib´ utumnak h´ıvni, hiszen a gyakorlati esetek többségében az arány skáláj´ u attrib´ utumok megadásához valós számokat használunk. Azonban ne felejts¨ uk el az arány skáláj´ u attrib´ utum eredeti defin´ıcióját, illetve azt, hogy az arány skáláj´ u attrib´ utumok nem feltétlen¨ ul valós számokat tartalmaznak. Például egy u ¨ gyfeleket le´ıró adatbázisban vannak bináris (pl. : b¨ untetett el˝oélet˝ u-e), kategorikus (pl. : vallás, családi a´llapot) és intervallum (pl. : dátum) t´ıpus´ u attrib´ utumok is.

36

˝ ´ HASONLOS ´ AGI ´ ¨ ´ 3. FEJEZET. ELOFELDOLGOZ AS, FUGGV ENYEK

37

Furcsa mód nem mindig triviális, hogy egy attrib´ utum milyen t´ıpus´ u. Például az id˝ojárás jellemzésére használt naps¨ ut´ eses, bor´ us, es} os értékekre mondhatjuk, hogy ez egy kategória attrib´ utum elemei. Ugyanakkor érezz¨ uk, hogy a bor´ us valahol a naps¨ ut´ eses és az es} os között helyezkedik el, ´ıgy inkább sorrend t´ıpus´ unak mondanánk az attrib´ utumot. Az intervallum t´ıpus´ u attrib´ utumok megadására is számokat használunk, amelyeknél értelme van a k¨ ulönbség szám´ıtásának, de a hányados képzésnek nincs t´ ul sok. Tulajdonképpen azt, hogy egy attrib´ utum esetében mikor beszél¨ unk intervallum és mikor arány skáláj´ u t´ıpusról az dönti el, hogy egyértelm˝ u-e a zérus pont definiálása. Gondoljuk meg, hogy például az évszámoknál hány fajta nullát ismer¨ unk. Hasonló a helyzet a h˝omérséklet esetében (Fahrenheit kontra Celsius). Weka 3.5.7

A weka saj´ at f´ ajlform´ atum´ at Arff-nak nevezik. Az Arff form´ atum (Attribute-Relation File Format) egy olyan ASCII sz¨ oveges f´ ajl form´ atum, mely azonos attrib´ utummal rendelkez˝ o rekordok t´ arol´ as´ ara alkalmas. Két részb˝ ol a ´ll: fejléc (header) és adat (data). A fejléc tartalmazza az attrib´ utumokat és azok t´ıpus´ at. A wek´ aban haszn´ alt adatt´ıpusok a k¨ ovetkez˝ ok: kateg´ oria (nominal), sz´ am (numeric), karakterl´ anc (string) és d´ atum (date). Kateg´ oria t´ıpus´ u attrib´ utumokn´ al fel kell sorolnunk az attrib´ utum lehetséges értékeit. A sorrend fontos lehet bizonyos el˝ ofeldolgoz´ asi sz˝ ur˝ oknél. A d´ atum t´ıpus´ u attrib´ utumokn´ al megadhatjuk a d´ atum form´ atum´ at is. A Data részben minden sorban egy rekord szerepel, amelynek attrib´ utumértékei vessz˝ ovel vannak elv´ alasztva. A hi´ anyz´ o értékeket a ? jelzi. A % jellel kezd˝ od˝ o sorok a megjegyzéseket jel¨ olik. Ha az adatb´ azisban sok nulla érték szerepel (az gyakori elemhalmazok és az asszoci´ aci´ os szab´ alyok kinyerésénél a ´ltal´ aban ez a helyzet) akkor a sparse arff form´ atumot célszer˝ u haszn´ alni. Ennél a form´ atumn´ al a data részben attrib´ utum sorsz´ am, attrib´ utum érték p´ arok vessz˝ ovel elv´ alasztott sorozata a ´ll. A nulla értékeket nem r¨ ogz´ıtj¨ uk. A weka.filters.unsupervised.attribute.MergeTwoValues sz˝ ur˝ o o ¨sszevonja egy kateg´ oria t´ıpus´ u attrib´ utum két értékét. Ha az eredeti attrib´ utum k k¨ ul¨ onb¨ oz˝ o értéket vehet fel, akkor a sz˝ ur˝ o alkalmaz´ asa ut´ an m´ ar csak (k − 1)-et. A weka.filters.unsupervised.attribute.ChangeDateFormat sz˝ ur˝ o egy d´ atum form´ atum´ u attrib´ utumom form´ atum´ at a ´talak´ıt egy ´ m´ asik form´ atumba. Igy egy részletes d´ atumform´ atumb´ ol (péld´ aul év, h´ onap, nap, o ´ra, perc, m´ asodperc) részinform´ aci´ ot (péld´ aul o ´ra, perc) nyerhet¨ unk ki. A weka.filters.unsupervised.attribute.NominalToBinary minden kateg´ oria t´ıpus´ u attrib´ utumot a ´tv´ alt bin´ aris attrib´ utumm´ a. Minden olyan A attrib´ utumot, amely k k¨ ul¨ onb¨ oz˝ o értéket vehet fel (k > 2), helyettes´ıt¨ unk k darab bin´ aris attrib´ utummal. Ha egy elem A attrib´ utum´ anak értéke az i-edik attrib´ utum érték volt, akkor csak i-edik u ´j attrib´ utum értéke lesz egy, a t¨ obbié pedig nulla. weka.filters.unsupervised.attribute.NumericToNominal sz˝ ur˝ o a sz´ am t´ıpus´ u attrib´ utumokb´ ol kateg´ oria t´ıpus´ uakat a ´ll´ıt el˝ o. Ezt egyszer˝ uen u ´gy végzi, hogy minden egyes sz´ amot kateg´ oria t´ıpus´ u attrib´ utum egy értékeként kezel, és hozz´ aadja az attrib´ utum


38

értékhalmaz´ ahoz.

Szinte minden adatbányász/statisztikai program megadja minden intervallum t´ıpus´ u attrib´ utumnak a legfontosabb statisztikáit. Ezek a – középértékre vonatkozó adatok : mintaátlag, medián, módusz, – szóródásra vonatkozó adatok : empirikus szórásnégyzet, minimum, maximum, terjedelem (max és min érték közötti k¨ ulönbség) – eloszlásra vonatkozó adatok : empirikus kvantilisek, ferdeség, lapultság. A ferdeség egy eloszlás szimmetriáját próbálja megadni. Ha a ferdeség nulla, akkor az eloszlás szimmetrikus (például normális eloszlásoknál), ellenkez˝o esetben a várható értékt˝ol balra (negat´ıv ferdeség esetében) vagy jobbra ny´ ulik el”. A ferdeségnek több mutatóját definiálták ; ” √ D 3 [X] ezek köz¨ ul a legelterjedtebb a γ1 = (D2 [X])3/2 ), de szokás még a β1 = γ1 -et is haszálni. Szintén nem az alapfogalmak közé tartozik a lapults´ ag fogalma, ami egy eloszlás cs´ ucsosságát 4 [X] adja meg. A lapultságnak is több elfogadott defin´ıciója létezik. Legelterjedtebb a β 2 = (DD2 [X]) 2 (kurtosis proper), és a γ2 = β2 − 3 (kurtosis excess) értékek. A normális eloszlás β2 lapultsági értéke három, a normálisnál laposabbaké háromnál kisebb. A ferdeséget és a lapultságot annak eldöntésénél szokták használni, hogy egy adott minta származhat-e normális eloszlásból. Kategória t´ıpus´ u attrib´ utum esetén a´ltalában grafikusan a´brázolják az eloszlásokat vagy gyakoriságokat. A legjellemz˝obb a´brázolási módok a kördiagrammok és a hisztogrammok.

3.2. Hasonl´ os´ agi m´ ert´ ekek Az adatbányászatban gyakran sz¨ ukség¨ unk lesz arra, hogy attrib´ utumokkal le´ırt elemek között hasonlóságot definiáljunk. Természetesen elvárjuk, hogy ha minél inkább több azonos érték szerepel az attrib´ utumaik között annál hasonlóbbak legyenek az elemek. A gyakorlatban hasonlósági mérték helyett k¨ ul¨ onb¨ oz˝ oségi mértékkel dolgozunk, amely a hasonlóság inverze (minél hasonlóbbak, annál kevésbé k¨ ulönböz˝ok). Elvárjuk, hogy két elem k¨ ulönböz˝oségét (d(x, y)) ki lehessen fejezni egy pozit´ıv valós számmal, továbbá egy elem o¨nmagától ne k¨ ulönbözzön, szimmetrikus legyen (d(x, y) = d(y, x)), és teljes¨ uljön a háromszög egyenl˝otlenség (d(x, y)≤d(x, z)+d(y, z)). Tehát a k¨ ulönböz˝oség metrika legyen. Két elem k¨ ulönböz˝osége helyett gyakran mondunk majd két elem t´ avols´ ag´ at. A következ˝okben sorra vessz¨ uk, hogyan definiáljuk a távolságot k¨ ulönböz˝o t´ıpus´ u attrib´ utumok esetében, és azt, hogy miként lehet egyes attrib´ utumok fontosságát (s´ ulyát) megnövelni.

3.2.1. Bin´ aris attrib´ utum Egy bináris attrib´ utum olyan kategória t´ıpus´ u attrib´ utum, amely két értéket vehet fel (pl. : 0 és 1). Hogyan határozzuk meg x és y elemek hasonlóságát, ha azok m darab bináris attrib´ utummal vannak le´ırva ? Kész´ıts¨ uk el a következ˝o o¨sszefoglaló táblázatot.


1 0 P

1 q s q+s

0 r t r+t

39

P

q+r s+t m

Például az 1-es sor 0-ás oszlopához tartozó érték azt jelenti, hogy r darab olyan attrib´ utum van, amelyek az x elemnél 1-et, y-nál 0-át vesznek fel. Ez alapján definiálhatjuk az u ´ n. invariáns és variáns hasonlóságot. Az invariáns hasonlóságot olyan eseményeknél használjuk, amikor a bináris attrib´ utum két értéke ugyanolyan fontos (szimmetrikus attrib´ utum), tehát mindegy, hogy melyiket kódoljuk 0-val, illetve 1-essel. Ilyen attrib´ utum például egy ember neme. Azért kapta ez a hasonlóság az invariáns jelz˝ot, mert nem változik az értéke, ha valaki máshogy kódolja az attrib´ utumokat (tehát kódolás invariáns). A legegyszer˝ ubb invariáns hasonlóság az eltér˝o attrib´ utumok relat´ıv száma : d(x, y) =

r+s . m

Aszimmetrikus attrib´ utum esetében a két lehetséges érték nem egyenrang´ u. Ilyen attrib´ utum lehet például egy orvosi vizsgálat eredménye. Nagyobb s´ ulya van annak a ténynek, hogy valaki fert˝ozött beteg, mint annak, hogy nem az. A konvencióknak megfelel˝oen 1-essel kódoljuk a lényeges (általában ritka) kimenetet. A legegyszer˝ ubb variáns hasonlósági mérték a Jaccardkoefficiens komplementere : q r+s d(x, y) = 1 − = , m−t m−t ahol nem tulajdon´ıtunk jelent˝oséget a nem jelent˝os kimenetek egyezésének. Amennyiben szimmetrikus és aszimmetrikus értékek is szerepelnek a bináris attrib´ utumok között, akkor azokat vegyes attrib´ utumként kell kezelni (lásd a 3.2.5-os részt).

3.2.2. Kateg´ oria t´ıpus´ u attrib´ utum ´ Altal´ anos esetben a kategória t´ıpus´ u attrib´ utum nem csak kett˝o, hanem véges sok k¨ ulönböz˝o értéket vehet fel. Ilyen attrib´ utum például az ember szeme sz´ıne, családi a´llapota, vallása stb. A legegyszer˝ ubb hasonlóság a nemegyezések relat´ıv száma : d(x, y) =

u , m

ahol m a kategória t´ıpus´ u attrib´ utumok száma, u pedig azt adja meg, hogy ezek köz¨ ul mennyi nem egyezett. Természetesen a kategória t´ıpus´ u attrib´ utumok sem feltétlen¨ ul szimmetrikusak, mert lehet, hogy az alapértelmezett értékek egyezése nem igazán fontos. A Jaccard-koefficiens komplementerét kategória t´ıpus´ u attrib´ utumokra is fel´ırhatjuk.

3.2.3. Sorrend t´ıpus´ u attrib´ utum Sorrend t´ıpus´ u attrib´ utum például az iskolai végzettség : 8 a´ltalános, befejezett középiskola, érettségi, f˝oiskolai diploma, egyetemi diploma, doktori c´ım. Vannak arány skáláj´ u attrib´ utumok, amelyeket inkább sorrend t´ıpus´ u attrib´ utumnak kezel¨ unk. Például a Forma 1-es versenyeken sem az egyes körök futási ideje szám´ıt, hanem az, hogy ki lett az els˝o, második ...


40

A sorrend t´ıpus´ u attrib´ utumokat a´ltalában egész számokkal helyettes´ıtik – tipikusan 1 és M közötti egész számokkal. Ha több sorrend t´ıpus´ u attrib´ utumunk van, amelyek a fontos a´llapotok x−1 számában eltérnek, akkor célszer˝ u mindegyiket a [0,1] intervallumba képezni az M m˝ uvelettel. −1 Így mindegyik egyenl˝o s´ ullyal szerepel majd a végs˝o hasonlósági mértékben. Ezután alkalmazhatjuk valamelyik intervallum t´ıpus´ u hasonlóságot.

3.2.4. Intervallum t´ıpus´ u attrib´ utum Az intervallum t´ıpus´ u attrib´ utumokat a´ltalában valós számok ´ırják le. Ilyen attrib´ utumra példa egy ember s´ ulya, magassága, egy ország éves a´tlagh˝omérséklete stb. Tekinthet¨ unk u ´ gy egy elemre, mint egy pontra az m-dimenziós vektortérben. Az elemek közötti k¨ ulönböz˝oséget a vektoraik k¨ ulönbségének normájával (hosszával) definiáljuk (d(~x, ~y) = ||~x −~y ||). Legtermészetesebb talán az Euklideszi-norma, de alkalmazhatjuk a Manhattan-normát is. Mindkét mérték a Minkowski-norma speciális esete. p Euklideszi-norma : L2 (~z) = |z1 |2 + |z2 |2 + · · ·+ |zm |2

Manhattan-norma : L1 (~z) = |z1 | + |z2 | + · · ·+ |zm |

Minkowski-norma : Lp (~z) = (|z1 |p + |z2 |p + · · · + |zm |p )1/p A p = ∞ esetén két vektor távolsága megegyezik a koordinátáinak a legnagyobb eltérésével (L∞ (~z) = max{|zi |}). i Habár az elemek le´ırásában már csak számok szerepelnek, a háttérben megb´ ujó mértékegységeknek nagy szeAz ide´ alis kork¨ ul¨ onbség férj és ” rep¨ uk van. Gondoljuk meg, ha méter helyett milliméterben feles´ eg k¨ oz¨ ott hat év. Egy svéd számolunk, akkor sokkal nagyobb értékek fognak szerepelni kutat´ as szerint ilyen esetben van az elemek le´ırásában, és ´ıgy a k¨ ulönbségek is megn˝onek. A maxim´ alis lehet˝ oség az ut´ odok nagy értékkészlet˝ u attrib´ utumoknak nagyobb hatásuk van sz¨ uletésére.” Forrás : http: a hasonlóság értékére, mint a kis értékkészlet˝ ueknek. Jo- //hvg.hu/egeszseg/20070913_ gos tehát az egyes attrib´ utumok normalizálása, azaz transz- idealis_korkulonbseg.aspx formáljuk o˝ket pl. a [0,1] intervallumba, majd ezen transzformált attrib´ utumok alapján szám´ıtsuk a távolságokat (3.3.6 rész). Gyakran el˝ofordul, hogy a k¨ ulönböz˝oség megállap´ıtásánál bizonyos attrib´ utumokra nagyobb s´ ulyt szeretnénk helyezni. Például két ember o¨sszehasonl´ıtásánál a hajsz´ınnek nagyobb szerepe van, mint annak, hogy melyik lábujja a legnagyobb. Ha figyelembe vessz¨ uk az attrib´ utumok s´ ulyait, akkor például az Euklideszi-távolság ´ıgy módosul : p d(x, y) = w1 |x1 − y1 |2 + w2 |x2 − y2 |2 + · · ·+ wm |xm − ym |2 , P ahol wi -vel jelölt¨ uk i-edik attrib´ utum s´ ulyát és legyen m i=1 wi = 1. El˝ofordulhat, hogy olyan attrib´ utummal van dolgunk, amely értékeit nemlineáris léptékben a´brázoljuk (nemlineáris növekedés˝ u attrib´ utumnak szokás h´ıvni ezeket). Például a baktérium populációk növekedését vagy algoritmusok futási idejét exponenciális skálán érdemes a´brázolni. Az ilyen attrib´ utumoknál nem célszer˝ u közvetlen¨ ul intervallum alap´ u hasonlóságot alkalmazni, mert ez o´riási k¨ ulönböz˝oségeket eredményez azokon a helyeken, ahol kis k¨ ulönböz˝oséget várunk.


41

Két megközel´ıtés között szokás választani. Egyrészt használhatjuk az intervallum alap´ u hasonlóságot, de nem az attrib´ utum eredeti értékén, hanem annak logaritmusán. Másrészt diszkretizálhatjuk az értékeket, és vehetj¨ uk csak a sorrendet a hasonlóság alapjául.

3.2.5. Vegyes attrib´ utumok Az el˝oz˝o részekben azt tekintett¨ uk a´t, hogyan definiáljuk a hasonlóságot két elem között adott t´ıpus´ u attrib´ utumok esetén. Mit tegy¨ unk akkor, ha egy objektum le´ırásánál vegyesen adottak a k¨ ulönböz˝o t´ıpus´ u – intervallum, bináris, kategória stb. – attrib´ utumok ? Csoportos´ıtsuk az egyes attrib´ utumokat t´ıpusuk szerint, és határozzuk meg a két elem hasonlóságát minden csoportra nézve. A kapott hasonlóságokat képezz¨ uk a [0,1] intervallumba. Minden attrib´ utumnak feleltess¨ unk meg egy dimenziót a térben, ´ıgy két elem hasonlóságához hozzárendelhet¨ unk egy vektort a vektortérben. A hasonlóság értékét feleltess¨ uk meg a vektor hosszának. Ennek a megközel´ıtésnek a hátránya, hogy ha például egyetlen kategória t´ıpus´ u attrib´ utum van, akkor az ugyanolyan s´ ullyal fog szerepelni, mint akár t´ız bináris attrib´ utum o¨sszesen. Célszer˝ u ezért az egyes attrib´ utumt´ıpusok a´ltal szolgáltatott értékeket s´ ulyozni a hozzájuk tartozó attrib´ utumok számával.

3.2.6. Speci´ alis esetek Egyre több olyan alkalmazás ker¨ ul el˝o, ahol a fent definiált a´ltalános hasonlóságok nem ragadják meg jól két elem k¨ ulönböz˝oségét. A teljesség igénye nélk¨ ul bemutatunk két olyan esetet, amikor speciális távolságf¨ uggvényre van sz¨ ukség. Elemsorozatok hasonl´ os´ aga Elemsorozaton egy véges halmazból vett elemek sorozatát értj¨ uk. Például a magyar nyelven értelmezett szavak elemsorozatok. Nézz¨ uk az S = habcdei sorozatot. Legtöbben azt mondanánk, hogy a hbcdxyei sorozat jobban hasonl´ıt S-re, mint az hxxxdddi sorozat. Nem ezt kapnánk, ha a poz´ıciókban megegyez˝o elemek relat´ıv számával definiálnánk a hasonlóságot. Egy elterjedt mérték az elemsorozatok hasonlóságára az u ´ n. szerkesztési t´ avols´ ag. Két sorozatnak kicsi a szerkesztési távolsága, ha az egyik sorozatból kevés elem törlésével ill. besz´ urásával megkaphatjuk a másikat. Pontosabban, két sorozat szerkesztési távolsága adja meg, hogy legkevesebb hány besz´ urás és törlés m˝ uvelettel kaphatjuk meg az egyik sorozatból a másikat. A szerkesztési távolság alapján csoportos´ıthatunk dokumentumokat, weboldalakat, DNS sorozatokat, vagy kereshet¨ unk illegális másolatokat. Bez´ art sz¨ og alap´ u hasonl´ os´ ag Vannak alkalmazások, ahol nem a vektorok k¨ ulönbségének a hossza a lényeges, hanem a vektorok a´ltal bezárt szög. Például dokumentumok hasonlóságával kapcsolatban számos okfejtést olvashatunk, hogy miért jobb szögekkel dolgozni, mint a távolságokkal. Emlékeztet˝ou ¨l a koszinusz-mérték pontos képlete : ~xT ~y d(x, y) = arccos . ||~x|| · ||~y||


42

3.3. El˝ ofeldolgoz´ as Weka 3.5.7 Az el˝ ofeldolgoz´ asi m´ odszereket az explorer preprocess f¨ ulén kereszt¨ ul érhetj¨ uk el. Itt adhatjuk meg a bemeneti adatot t´ arol´ o f´ ajl (Open file...), url (Open URL...) vagy adatb´ azis nevét ((Open DB...)). Az Edit... gombra klikkelve k¨ onnyen olvashat´ o form´ aban megjelenik az adat, amelyet k¨ ozvetlen m´ odos´ıthatunk is. Ha valamelyi oszlop fejlécére kattintunk, akkor az adatokat az oszlop szerint rendezve l´ athatjuk. Minden el˝ ofeldolgoz´ asi elj´ ar´ ast két csoportba soroljuk. A supervised (fel¨ ugyelt) m´ odszereknél meg kell adni egy oszt´ alyattrib´ utumot, az unsupervised (fel¨ ugyelet nélk¨ uli) m´ odszereknél minden attrib´ utum egyforma. Ezen csoportokon bel¨ ul megk¨ ul¨ onb¨ oztet¨ unk attribute és instance elj´ ar´ asokat att´ ol f¨ ugg˝ oen, hogy attrib´ utumokra (oszlopokra) vagy elemekre/objektumokra (sorokra) vonatkoznak. Minden sz˝ ur˝ onél (még a fel¨ ugyelet nélk¨ ulieknél is) az ignoreClass bin´ aris paraméterrel a ´ll´ıthatjuk be, hogy a sz˝ urés sor´ an figyelembe vegyee az oszt´ alyattrib´ utumot. Alapértelmezés szerint az oszt´ alyattrib´ utum az utols´ o attrib´ utum.

3.3.1. Hi´ anyz´ o´ ert´ ekek kezel´ ese Az adatbányászati algoritmusok csak olyan elemeket tudnak kezelni, amelyeknek minden attrib´ utuma adott. A való élet adatbázisainál ez nem mindig a´ll fenn, könnyen lehet, hogy bizonyos cellákat nem töltött ki az adatot begépel˝o személy. Sok oka lehet a hiányos mez˝oknek. Például az orvos bizonyos teszteken nem végzett el a páciensen, mert nem találta sz¨ ukségesnek. Persze törölhetj¨ uk azokat az elemeket, amelyek tartalmaznak hiányzó attrib´ utumokat, de lehet, hogy ekkor annyira lecsökken az adatbázis mérete, hogy az alkalmatlan lesz az elemzésre, vagy legalábbis adott konfidencia mellett keveset tudunk mondani az o¨sszef¨ uggésekr˝ol. A hiányzó értékeket tartalmazó elemek hasznos információt tartalmazhatnak, ne dobjuk el o˝ket, ha nem muszáj. A hiányzó cellákat fel kell tölten¨ unk valamilyen értékkel, vagy a hiányzást mint k¨ ulön attrib´ utumértéket kell kezeln¨ unk. Ez utóbbit teszi például a C4.5 nev˝ u döntési fákat el˝oa´ll´ıtó módszer [141] is. Sokféleképpen helyettes´ıthetj¨ uk a hiányzó értékeket. Ha a hiányzó attrib´ utum kategória t´ıpus´ u, akkor vehet¨ unk egy alapértelmezett értéket, vagy az attrib´ utum leggyakrabban el˝oforduló értékét (módusz). Létrehozhatunk egy elem helyett sok u ´ j teljes elemet u ´ gy, hogy a hiányzó attrib´ utum helyére az o¨sszes lehetséges értéket be´ırjuk. Intervallum attrib´ utumok esetén szokás az a´tlagot vagy a mediánt választani. Weka 3.5.7

A weka.filters.unsupervised.attribute.ReplaceMissingValues sz˝ ur˝ o a hi´ anyz´ o értékek helyettes´ıtésére szolg´ al. Kateg´ oria t´ıpus´ u attrib´ utumokn´ al a leggyakrabban el˝ ofordul´ o értékkel (m´ odusz), sz´ am t´ıpus´ uakn´ al pedig az a ´tlaggal helyettes´ıt.


43

Ha osztályozási feladattal van dolgunk, akkor a fenti értékek szám´ıtásánál szor´ıtkozhatunk csak az adott osztályba tartozó elemekre. S˝ot ezt a gondolatot vihetj¨ uk tovább és az értékek szám´ıtásánál tekinthetj¨ uk csak azokat az elemeket (ha vannak ilyenek), amelyek attrib´ utumainak értékei megegyeznek a hiányzó értéket tartalmazó elem attrib´ utumainak értékeivel. Itt érdemes gondosan eljárni és csak a fontos attrib´ utumokat vizsgálni (gondoljuk meg, ha a vizsgálatnál nem zárjuk ki az azonos´ıtó attrib´ utumot, akkor egyetlen elemet sem fogunk figyelembe venni).

3.3.2. Attrib´ utum transzform´ aci´ ok ´ attrib´ Uj utumok l´ etrehoz´ asa El˝ofordulhat, hogy egy attrib´ utumérték jóslásánál bizonyos attrib´ utumok f¨ uggvénye játszhat szerepet. Például rendelkezés¨ unkre a´llhatnak az emberek magassága és a tömege, a betegség jóslásánál azonban a testtömeg index játszhat szerepet. Persze elvárhatjuk, hogy ezt a f¨ uggvényt az osztályozó automatikusan felismerje elvégre – mint azt látni fogjuk – az osztályozás maga egy f¨ uggvény approximáció. Az el˝ozetes ismeretek, apriori tudás bevitelével azonban szinte mindig javul az osztályozás min˝osége. Ne várjunk csodát az osztályozótól, amikor tudunk, seg´ıts¨ unk neki. Weka 3.5.7 A weka.filters.unsupervised.attribute.Add sz˝ ur˝ o egy u ´j attrib´ utumot hoz létre. Minden elem ezen attrib´ utuma u ¨res (hi´ anyz´ o) lesz. Kateg´ oria t´ıpus´ u attrib´ utum létrehoz´ as´ ahoz meg kell adnunk a lehetséges értékeket. A weka.filters.unsupervised.attribute.AddExpression sz˝ ur˝ ovel u ´j attrib´ utumot sz´ armaztathatunk meglév˝ o attrib´ utumokb´ ol. Az meglév˝ o attrib´ utumokra, mint a1, a2, . . . hivatkozhatunk. A felhaszn´ alhat´ o oper´ atorok a k¨ ovetkez˝ ok: o ¨sszead´ as, kivon´ as, szorz´ as, oszt´ as, hatv´ anyoz´ as, logaritmus, exponenci´ alis, szinus, coszinus, tangens, egészrész képzés és a kerek´ıtés. weka.filters.unsupervised.attribute.AddID sz˝ ur˝ o egy azonos´ıt´ o attrib´ utumot ad az adathalmazhoz. Minden elem (sor) azonos´ıt´ oja egyedi lesz. A weka.filters.unsupervised.attribute.Copy egy meghat´ arozott attrib´ utumhalmazt duplik´ al. Ezt a sz˝ ur˝ ot a ´ltal´ aban olyan m´ as sz˝ ur˝ okkel egy¨ utt szok´ as haszn´ alni, amelyek fel¨ ul´ırj´ ak az adatokat. Ebben az esetben lehet˝ ové v´ alik az eredeti attrib´ utum meg˝ orzése az u ´j mellett. A weka.filters.unsupervised.attribute.FirstOrder sz˝ ur˝ o egy k elemb˝ ol a ´ll´ o sz´ am t´ıpus´ u attrib´ utum intervallumb´ ol kész´ıt egy (k −1)elem˝ ut, az egym´ ast k¨ ovet˝ o tagok k¨ ul¨ onbségének képzésével. Péld´ aul az 1,2,1 sorozatb´ ol 1,-1 sorozatot kész´ıt. weka.filters.unsupervised.attribute.MathExpression végrehajt egy megadott f¨ uggvényt a kiv´ alasztott t´ıpus´ u attrib´ utumokon. A f¨ uggvényt az expression paraméterrel adjuk meg (’A’ bet˝ uvel lehet az attrib´ utumra hivatkozni). A M IN, M AX, M EAN, SD v´ altoz´ ok


44

az attrib´ utum minimum´ at, maximum´ at, a ´tlag´ at és sz´ or´ as´ at jel¨ olik. A t´ amogatott m˝ uveletek list´ aja az al´ abbi: +, -, *, /, pow, log,abs, cos, exp, sqrt, tan, sin, ceil, floor, rint, (, ),A, COUNT, SUM, SUMSQUARED, ifelse. weka.filters.unsupervised.attribute.NumericTransform sz˝ ur˝ o a sz´ am t´ıpus´ u attrib´ utumokon végrehajt egy elj´ ar´ ast. A className paraméterrel adhat´ o meg az oszt´ aly, amely a felhaszn´ alni k´ıv´ ant elj´ ar´ ast tartalmazza. A methodName opci´ o seg´ıtségével adjuk meg a met´ odus nevét.

Attrib´ utumok t¨ orl´ ese Az adatbányász algoritmustól elvárjuk, hogy a lényegtelen attrib´ utumokat ne vegye figyelembe. Szokták mondani, hogy a döntési fák nagy el˝onye, hogy a döntését csak a lényeges attrib´ utumok alapján hozza meg. Ez azt sugallja, hogy nyugodtan o¨sszekapcsolhatjuk az adattáblákat és létrhozhatunk egy sok attrib´ utumot tartalmazó táblát, a csodamódszerek majd figyelmen k´ıv¨ ul hagyják a lényegtelen attrib´ utumokat. Sajnos ez csak elméletben van ´ıgy, a felesleges attrib´ utumok a´ltal okozott zaj ugyanis rontja a módszerek teljes´ıtményét. Erre a problémára majd a döntési fáknál visszatér¨ unk. Ha tehetj¨ uk seg´ıts¨ unk az adatbányász módszereken és törölj¨ uk azokat az attrib´ utumokat (például egyedi azonos´ıtó), amelyek nem fontosak az elemzés céljából. Minden adatbányász eszköz k´ınál erre támogatást. Weka 3.5.7 A weka.filters.unsupervised.attribute.Remove t¨ orli az a ´ltalunk megadott attrib´ utumokat. Haszn´ aljuk a weka.filters.unsupervised.attribute.RemoveType sz˝ ur˝ ot, ha az o ¨sszes, adott t´ıpus´ u attrib´ utumot t¨ or¨ olni k´ıv´ anjuk. weka.filters.unsupervised.attribute.RemoveUseless sz˝ ur˝ o a haszontalan attrib´ utumokat t¨ orli. Ezek egy´ altal´ an nem vagy nagyon sokat v´ altoznak. A haszontalan attrib´ utumok nem j´ atszhatnak szerepet semmilyen adatb´ any´ aszati m´ odszerben. Minden konstans érték˝ u attrib´ utum haszontalan, de a m´ asik véglet is igaz. Ha egy attrib´ utum t´ ul sok k¨ ul¨ onb¨ oz˝ o értéket vesz fel, akkor az is haszontalan. A haszontalans´ ag meg´ıtélésénél a k¨ ul¨ onb¨ oz˝ o értékek sz´ am´ anak ar´ any´ at az o ¨sszes sorhoz képest a maximumVariancePercentageAllowed paraméterrel adhatjuk meg.

3.3.3. Hib´ as bejegyz´ esek, a zaj elt´ avol´ıt´ asa Weka 3.5.7 A weka.filters.unsupervised.attribute.InterquartileRange sz˝ ur˝ o a k¨ ul¨ onc pontokat és az extrém értékeket


45

der´ıti fel. Jel¨ olj¨ uk Q1, Q3-mal a 25% és 75% tartoz´ o kvantiliseket, legyen IQR = Q3 − Q1, tov´ abb´ a OF és EV F a felhaszn´ al´ o a ´ltal megadott két érték (Outlier Factor és Extreme Value Factor). Extrémnek nevez¨ unk egy értéket, ha az nagyobb, mint Q3+EV F ∗IQR, vagy kisebb, mint Q1−EV F ∗IQR. K¨ ul¨ onc pontok k¨ ozé soroljuk azokat az értékeket, amelyen nem extrémek és nem esnek a [Q1−OF ∗IQR, Q3+OF ∗IQR] intervallumba sem. Ha az outputOffsetMultiplier paramétert igazra a ´ll´ıtjuk, akkor a sz˝ ur˝ o u ´j attrib´ utumot hoz létre, amelynek értéke a (A − median)/IQR lesz (A az attrib´ utum érték jel¨ oli). A weka.filters.unsupervised.instance.RemoveWithValues sz˝ ur˝ ovel azokat az elemeket t¨ or¨ olhetj¨ uk az adathalmazb´ ol, amelyek adott attrib´ utuma adott értéket vesz fel. A weka.filters.unsupervised.attribute.NumericCleaner sz˝ ur˝ o a maxThreshold) paraméternél nagyobb értékeket maxDefault értékkel, a minThreshold paraméternél kisebbeket minDefault értékkel és a closeTo paraméterhez k¨ ozeli (closeToTolerance) értékeket closeToDefault értékkel helyettes´ıti. A weka.filters.unsupervised.instance.RemoveMisclassified lefuttat egy oszt´ alyoz´ o m´ odzsert, majd t¨ orli a rosszul oszt´ alyzott elemeket.

3.3.4. Adatok elront´ asa, o ¨sszezagyv´ al´ asa Miért akarnánk elrontani az adathalmazt ? Több okunk is lehet rá. Például vizsgálni szeretnénk, hogy egy adott módszer mennyire érzékeny a zajra. Az is lehet, hogy egy cég publikussá teszi bizonyos adatait, de el˝oször azt kicsit a´talak´ıtja/lerontja u ´ gy, hogy az adatelemzés techni´ kailag kivitelezhet˝o legyen, de a konkurrencia ne tudjon hasznos információhoz jutni. Altal´ aban a kutatóknak a´tadott adathalmazoknál a kutatók nem ismerik az egyes attrib´ utumok eredeti jelentését. Weka 3.5.7

A weka.filters.unsupervised.attribute.AddNoise oszt´ aly az elemek adott részének megv´ altoztatja adott attrib´ utum´ anak értékét. A weka.filters.unsupervised.attribute.Obfuscate sz˝ ur˝ o megv´ altoztatja az attrib´ utumok nevét és a ´tnevezi az attrib´ utumértékeket.

3.3.5. Diszkretiz´ al´ as A diszkretizálás/kvantálás során szám t´ıpus´ u attrib´ utumot kategória t´ıpus´ uvá alak´ıtjuk. Az attrib´ utum értékkészletét intervallumokra/csoportokra osztjuk és minden intervallumhoz egy kategóriát rendel¨ unk. A diszkretizálás során nyilván információt vesz´ıt¨ unk viszont seg´ıthet¨ unk az adatbányász algoritmuson. Számos módszer létezik diszkretizációra.


46

Kialak´ıthatunk egyen˝o szélesség˝ u vagy egyen˝o gyakoriság´ u intervallumokat. Az egyenl˝o gyakoriság´ u intervallumoknál minden intervallumba ugyanannyi adatpont esik. Weka 3.5.7 A fenti két m´ odszert a weka.filters.unsupervised.attribute.Discretize sz˝ ur˝ on kereszt¨ ul érhetj¨ uk el. A useEqualFrequency paraméterrel adhatjuk meg, hogy a két lehet˝ oség k¨ oz¨ ul melyiket v´ alasztjuk.

PKI (Proportional k-Interval Discretization) diszkretizációs módszerként hivatkoznak arra az esetre, amikor egyenl˝o gyakoriság´ u intervallumokat alak´ıtunk ki és az intervallumok száma az adatpontok négyzetgyökével egyezik meg [187]. Weka 3.5.7 A PKI módszert a weka.filters.unsupervised.attribute.PKIDiscretize oszt´ aly implement´ alja.

1R m´ odszer Az 1R tulajdonképpen egy egyszer˝ u osztályozó módszer, amelynek tartalmaz egy diszkretizációs eljárást. Egy példán keresz¨ ul szemléltetj¨ uk az algoritmust. A diszkretizálandó attrib´ utum a h˝omérsékletet adja meg Fahrenheitban mérve. A tan´ıtómintában az egyes h˝omérsékletekhez a következ˝o osztályértékek tartoznak (az attrib´ utumértékeket nagyság szerint növekv˝oen sorba kell rendezni) : 64 65 68 69 1 0 1 1

70 71 72 72 75 75 1 0 0 1 1 1

80 81 83 85 0 1 1 0

Egy lehetséges csoportos´ıtás szerint induljuk el a legkisebb értékekt˝ol és akkor zárjuk le az aktuális intervallumot, ha változik az osztály. A példában nyolc csoportot hoznánk létre : 64 1

65 0

68 69 1 1

70 1

71 72 0 0

72 75 75 1 1 1

80 0

81 83 1 1

85 0

A határokat a felez˝opontokban megválasztva a következ˝o határokat hoznánk létre : 64.5, 66.5, 70.5, 72, 77.5, 80.5, 84. A felosztás persze nem egyértelm˝ u, hiszen ugyanahhoz a ponthoz tartozhatnak k¨ ulönböz˝o osztályok is. Erre példa a 72. Ha van egy osztály, amely a leggyakrabban fordul el˝o a kérdéses tan´ıtópontok között, akkor azt az osztályt rendelj¨ uk a ponthoz. Ellenkez˝o esetben a leggyakoribb osztályok köz¨ ul azt, amelyik a legkevesebb csoportot/felosztást adja. A t´ ul sok kicsi intervallum létrehozásának elker¨ ulése végett célszer˝ u megadni egy minimális elemszám k¨ uszöböt, legalább ennyi elemet kell tartalmaznia minden csoportnak, kivéve az utolsót. Ha ez a minimum érték három, akkor a következ˝o csoportokat hozzuk létre. 64 65 68 69 70 1 0 1 1 1

71 72 72 75 75 0 0 1 1 1

80 81 83 0 1 1

85 0


47

Amikor a szomszédos csoportokban megegyezik a legtöbbször el˝oforduló osztályérték, akkor a két csoport közötti határt eltörölhetj¨ uk. Ez alapján csak két intervallumot fogunk el˝oa´ll´ıtani, a határvonalat a 77.5 adja. Az utolsó csoporthoz o¨nkényesen rendelt¨ uk a 0-ás osztályértéket. Ha nem ´ıgy tesz¨ unk, akkor egyáltalán nem jelöl¨ unk ki határt és minden pont egy intervallumba tartozik. Lássuk, hogy k¨ ulönböz˝o felosztás kaphatunk, attól f¨ ugg˝oen, hogy a sor melyik végét˝ol kezdj¨ uk a módszert. Entr´ opia alap´ u diszkretiz´ al´ as Weka 3.5.7 weka.filters.supervised.attribute.Discretize

3.3.6. Normaliz´ al´ as Normalizáláson azt értj¨ uk, hogy az attrib´ utum elemeit egy másik intervallum elemeivel helyettes´ıtj¨ uk u ´ gy, hogy a helyettes´ıtett értékek eloszlása megegyezzen az eredeti értékek eloszlásával. Tegy¨ uk fel, hogy az A attrib´ utum a1 , a2 , . . . , al értékeket vesz fel. Az aj , j = 1, . . . , l érték normáját a0j -vel jelölj¨ uk. Normalizálásra két módszer terjedt el. a −min

A Min-max normaliz´ al´ as : Itt egy sima lineáris transzformációt végz¨ unk : a0j = maxj A −min , ahol A minA (maxA ) jelöli az A attrib´ utum legkisebb (legnagyobb) értékét. Minden elem a [0,1] intervallumba fog esni.

¯ Standard normaliz´ al´ as (z-score normalization) : a0i = aiσ−AA , ahol A¯ az A attrib´ utum qP l ¯2 i=1 (ai −A) a´tlaga, σA pedig a szórása. A hagyományos szórás ( ) helyett az abszol´ ut l Pl

¯ |a −A|

szórást is használni szokták ( i=1 l i ). Ennek el˝onye, hogy csökkenti az a´tlagtól távol es˝o pontok (k¨ ulöncök, outlier-ek) hatását. Weka 3.5.7 A két normaliz´ al´ o elj´ ar´ ast a weka.filters.unsupervised.attribute.Normalize és a weka.filters.unsupervised.attribute.Standardize sz˝ ur˝ ok implement´ alj´ ak. Itt kell megeml´ıten¨ unk a weka.filters.unsupervised.attribute.Center oszt´ alyt, amely csak annyit tesz, hogy minen értékb˝ ol kivonja 0 ¯ az a ´tlagot (ai = ai − A).

3.3.7. Mintav´ etelez´ es Az adatbányászati algoritmusok a´ltalában er˝oforrás-igényesek. Ha a bemeneti adathalmaznak csak egy kis szeletét, kis mintáját dolgozzuk fel, akkor hamarabb kapunk eredményt. A


48

mintavételezés következménye, hogy az ´ıgy kapott eredmény nem biztos, hogy pontos, azaz lehet, hogy nem azt az eredményt kapjuk, mint amikor a teljes adathalmazt dolgozzuk fel. Vannak esetek, amikor a pontos eredménynél fontosabb a gyors adatfeldolgozás. Ilyen esetekben nagyon hasznos egy olyan mintaméret meghatározása, aminél az algoritmus gyors, de a hibázás valósz´ın˝ usége kicsi. A hiba mértékér˝ol csak abban az esetben tudunk b˝ovebben nyilatkozni, ha tudjuk, milyen jelleg˝ u Az Elevit hatékonys´ ag´ at igazol´ o ” o¨sszef¨ uggéséket nyer¨ unk ki. Most azt a speciális esetet klinikai vizsg´ alatok k¨ ozel t´ızezer nézz¨ uk meg, amikor elemek el˝ofordulásának valósz´ın˝ uségét magyar kismama bevon´ as´ aval akarjuk közel´ıteni a relat´ıv gyakoriságukkal. Gyako- végezték. A vizsg´ alatok sor´ an ri minták, asszociációs szabályok, χ2 alap´ u f¨ ugget- az Elevit szedésével kilencvenkét lenségvizsgálatnál ez az eset a´ll fenn. sz´ azalékkal cs¨ okkent az idegrendTegy¨ uk fel, hogy elemek halmazából egy tetsz˝oleges szeri fejl˝ odési rendellenességek x elem el˝ofordulásának valósz´ın˝ usége p és m megel˝ ofordul´ asa.” Forrás : Baba Pafigyelés/minta a´ll rendelkezés¨ unkre. A mintavételezés tika X. évfolyam 10. szám, 44. hibázik, amennyiben x relat´ıv gyakorisága eltér p-t˝ol, pon- oldal, 2007. október : tosabban a mintavételezés hibája : hiba(m) = P rel. gyakoriság(x) − p ≥ . Jelölje Xi azt a valósz´ın˝ uP ségi változót, amely 1, ha x-et választottuk egy i-edik h´ uzásnál, m k¨ ulönben 0, és legyen Y = i=1 Xi . Mivel a h´ uzások egymástól f¨ uggetlenek, az Y eloszlása m, p paraméter˝ u binomiális eloszlást követ. Ezt felhasználva : Y hiba(m) = P − p ≥ = P Y − m · p ≥ m · m = P Y − E Y ≥ m · = P Y ≥ m · (E[X] + ) + P Y ≤ m · (E[X] − )

A második egyenl˝oségnél kihasználtuk, hogy a binomiális eloszlás várható értéke m · p. Tetsz˝oleges eloszlás esetén a várható értékét˝ol való eltérés valósz´ın˝ uségére több ismert korlát is létezik [161]. A Csernov-korlát (amely a Hoeffding korlát egy speciális esete) a következ˝oket adja : 2 P Y ≥ m · (E[X] + ) ≤ e−2 m

és

amib˝ol megkapjuk, hogy :

2 P Y ≤ m · (E[X] − ) ≤ e−2 m P(hiba(m)) ≤ 2 · e−2

2m

.

Amennyiben a hibakorlátot δ-val jelölöm, akkor az alábbinak kell igaznak lennie, hogy m≥

1 2 ln . 22 δ


49

|M|

δ

0.05 0.01 0.01 0.01 0.001 0.001 0.001

0.01 1060 0.01 27000 0.001 38000 0.0001 50000 0.01 2700000 0.001 3800000 0.0001 5000000

3.1. táblázat. A minimális minta mérete rögz´ıtett , δ mellett

Ha például azt szeretnénk, hogy a mintavételezés során tetsz˝oleges elem minta, – illetve el˝ofordulásának valósz´ın˝ usége – 0.01-nál nagyobb eltérés valósz´ın˝ usége kisebb legyen 1%nál, akkor a minta mérete legalább 27000 kell legyen. A 3.1 táblázatban adott eltérés- és valósz´ın˝ uségkorlátokhoz tartozó minimális mintaméret található. ´ Gyan´ us, hogy a végs˝o képletben nem szerepel p. Erezz¨ uk, hogy a p figyelmen k´ıv¨ ul hagyása nem baj, ha nagy várható értékekkel dolgozunk, de mi van kis valósz´ın˝ uségek esetén ? Például = =0.05 és δ=0.01 esetén 1060 méret˝ u mintát kell venn¨ unk. Ha p egy ezred, akkor azt várjuk, hogy csak egyszer fordul el˝o a mintában x. Már ebben az esetben is a relat´ıv gyakoriság (1/1060 = = 0.000943) több, mint o¨t százalékkal tér el a tényleges valósz´ın˝ uségt˝ol, azaz minden esetben hibázni fogunk. Vagy másképp mondva, a hiba valósz´ın˝ usége 1, (nem pedig 0.01). Minek vacakolunk mi mindenféle Csernov-korláttal amikor ismerj¨ uk Y s˝ ur˝ uségf¨ uggvényét, ´ıgy tetsz˝oleges intervallumra meg tudjuk mondani az el˝ofordulás valósz´ın˝ uségét : P Y − m · p ≥ m · = 1 −

min{bmp+mc,m}

X

i=max{dmp−me,0}

m i p (1 − p)m−i i

= 1 + F (max{bmp − mc, 0}, m, p) − F (min{dmp + me, m} − 1, m, p),

ahol F (x, m, p)-vel az (m, p) paraméter˝ u binomiális eloszlás eloszlásf¨ uggvényét jelölj¨ uk. Sajnos a fenti képlet alapján nem tudunk szép zárt képletet adni a minta méretének alsó korlátja és az , δ páros közötti kapcsolatra. Mit gondolunk ? Rögz´ıtett m és esetén kis vagy nagy p esetén lesz kicsi a hiba (mivel a binomiális eloszlás szimmetrikus, ezért szor´ıtkozzunk p ≤ 0.5 esetekre) ? A bevezet˝o példa azt sugallja, hogy minél kisebb a p, annál nagyobb mintát kell venni. Ez sajnos nem ´ıgy van. Amennyiben p≤, akkor a mp−m≤0 és ´ıgy a hiba 1−F (bmp+mc, m, p)-re egyszer¨ usödik. Ez viszont nullához tart, amennyiben p → 0, hiszen 1 − F (bmp + mc, m, p) ≤ 1 − F (bmc, m, p) = P(Y ≥ bmc) ≤

mp . bmc

Az utolsó elgyenl˝otlenségnél a Markov egyenl˝otlenséget használtuk fel. Az eredmény ellentmond elvárásainknak, hiszen eszerint kis valósz´ın˝ uségeket kisebb mintával tudunk jól közel´ıteni.

˝ ´ HASONLOS ´ AGI ´ ¨ ´ 3. FEJEZET. ELOFELDOLGOZ AS, FUGGV ENYEK 0.25

50

Binom(100, 0.3) Binom(100, 0.03)

0.2

0.15

0.1

0.05

0

0

20

40

60

80

100

3.1. a´bra. K¨ ulönböz˝o p paraméter˝ u binomiális eloszlások

Na, és mi van p≥ esetén ? Továbbra is igaz, hogy a p növelésével növekszik a hiba ? A válasz igenl˝o. Ezt az a´ll´ıtást csak szemléltetni fogjuk. Vess¨ unk egy pillantást a 3.1 a´brára, amelyen két, k¨ ulönböz˝o p paraméter˝ u binomiális eloszlást láthatunk. Két dolgot vehet¨ unk észre. A kisebb p-hez tartozó maximális valósz´ın˝ uség nagyobb. A nagy valósz´ın˝ uségek a várható érték kisebb környezetében találhatók. Az észrevételeink a´ltalánosan is igazak. A második észrevétel például a szórással van kapcsolatban. A kisebb p paraméter˝ u eloszlás szórása kisebb. Legyen a két paraméter p és q és legyen p < q < 0.5. Ekkor mp(1 − p) = σp2 <σq2 = mq(1 − q)

p − p2
A kisebb valósz´ın˝ uségeknél a várható érték sz˝ ukebb környezetében vannak a nagy valósz´ın˝ uségek, ezért a várható érték ±m környezetén k´ıv¨ uli pontok valósz´ın˝ uséginek o¨sszege kisebb, azaz a hiba kisebb ! A következ˝o a´brákon az érvelést támasztjuk alá. A 3.2 a´brán a hibát a´brázoljuk a minta mérete és a valósz´ın˝ uség f¨ uggvényében rögz´ıtett mellett. Látjuk, hogy ha növekszik p (vagy csökken m), akkor csökken a hiba valósz´ın˝ usége. A 3.3 a´brán megint a mintavételezés hibáját a´brázoltuk, de most az mellett a minta mérete is rögz´ıtve van. Itt még jobban látszik, hogy ahogy csökken p u ´ gy n˝o a hiba is. Ha ezeknél a paramétereknél a Csernov-korlátot alkalmazzuk, akkor azt kapjuk, hogy a hiba valósz´ın˝ usége kisebb 1.2-nél. Ez elég semmitmondó. Idézz¨ uk fel a kiinduló kérdést : Mit gondolunk ? Rögz´ıtett m és esetén kis vagy nagy p esetén lesz kicsi a hiba ? Hát, nem mondhatjuk, hogy a várt választ kaptuk. Az ember valamiért o¨sztönösen ragaszkodik ahhoz a válaszhoz, hogy kisebb valósz´ın˝ uség mellett nagyobb lesz a hiba. Elemezés¨ unk azonban pont az ellenkez˝ojét adta. Meg kell békéln¨ unk ezzel, vagy tehet¨ unk valamit a zavaró válasz ellen ? Térj¨ unk vissza a hiba defin´ıciójához : hiba(m) = P rel. gyakoriság(x) − p ≥ , azaz hibát követ¨ unk el, ha a relat´ıv gyakoriság és a tényleges valósz´ın˝ uség közötti k¨ ulönbség nagyobb egy adott konstansnál, amelyet -nal jelölt¨ unk. A relat´ıv gyakoriságnak a valósz´ın˝ uség egy rögz´ıtett szélesség˝ u környezetében kell lennie. Szerencsés az, hogy a hibát a relat´ıv gyakoriság és a valósz´ın˝ uség k¨ ulönbségével mérj¨ uk ? Ez alapján például ugyanakkora hibát követ¨ unk el, ha p = 0.8 esetén a relat´ıv gyakoriság 0.81 és


51

P(|Y/m - p| > 0.035 ) error 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

0.5 0.45

0.4 0.35

0.3 0.25 p

0.2 0.15

0.1 0.05

0 500 450

300 400 350

250 200

150 100 m

50

0

3.2. a´bra. A mintavételezés hibája a minta méretének és az el˝ofordulás valósz´ın˝ uségének f¨ uggvényében

1.4

P(|Y/200 - p| > 0.035 ) 2 * exp(-2 * 0.0352 * 200)

1.2

1

error

0.8

0.6

0.4

0.2

0

0

0.05

0.1

0.15

0.2

0.25 p

0.3

0.35

0.4

0.45

0.5

3.3. a´bra. A mintavételezés hibája az el˝ofordulás valósz´ın˝ uség˝ unek f¨ uggvényében

˝ ´ HASONLOS ´ AGI ´ ¨ ´ 3. FEJEZET. ELOFELDOLGOZ AS, FUGGV ENYEK 1

52

error = 1 - P(1/(1+0.035) < (Y/1500)/p < 1+0.035 )

0.9

error

0.8

0.7

0.6

0.5

0.4

0

0.05

0.1

0.15

0.2

0.25

p

3.4. a´bra. A mintavételezés hibája az el˝ofordulás valósz´ın˝ uségének f¨ uggvényében relat´ıv hibamérés esetében

ha p = 0.01 esetén a relat´ıv gyakoriság nulla, azaz az esemény nem következett be egyszer sem. Az embernek az az érzése van, hogy az els˝o esetben kisebbet hibáztunk. A fenti érvelés alapján célszer˝ ubb a hibát a valósz´ın˝ uség és a relat´ıv gyakoriság hányadosával mérni. Jobban érdekel minket az, hogy hány százalékkal nagyobb vagy kisebb a relat´ıv gyakoriság a valósz´ın˝ uségnél, mint az abszol´ ut k¨ ulönbség. Ha elfogadjuk ezt az érvelést, akkor a hibát a következ˝oképpen definiáljuk : 1 hiba(m) = P rel. gyakoriság(x)/p ≥ 1 + + P rel. gyakoriság(x)/p ≤ 1+ 1 < rel. gyakoriság(x)/p < 1 + = 1−P 1+ = 1 + F (bmp/(1 + )c, m, p) − F (min{dmp(1 + )e, m} − 1, m, p), ahol > 0 valós szám. Ennél a defin´ıciónál már igaz lesz – nagyvonalakban, – hogy minél kisebb az el˝ofordulás valósz´ın˝ usége, annál nagyobb lesz a hiba, tehát annál nagyobb mintát kell venn¨ unk. Ezt támasztja alá a 3.4 a´bra is. Az a´bra mutatja, hogy tényleg csak nagyvonalakban igaz, hogy kisebb p-knél nagyobb a hiba. Szigor´ uan véve ugyanis ez nem igaz. Ennek oka, hogy a binomiális eloszlás diszkrét eloszlás és ezért ahogy csökkentj¨ uk a p-t és u ´ gy tolódik nem hibát jelent˝o intervallum a nulla pont felé és fordulhat el˝o az, hogy egy u ´ jabb pont beker¨ ul az intervallumba. Például = 0.035 és m = = 1500 esetében a [pm/(1+), pm(1+)] intervallumba nem esik egész érték p = 0.007 esetében (hiszen a nem hibát jelent˝o intervallum [10.1,10.9]), m´ıg p = 0.006 esetén igen (ekkor a vizsgált intervallum [8.7,9.3]). Ha p tart nullához, akkor a hiba egyhez tart. Amennyiben a p kisebb 1/(1 + ), akkor a p , p(1 + ) intervallumba nem eshet egész érték, ezért az X el˝ofordulásától f¨ uggetlen¨ ul a 1+ hiba értéke egy lesz. Az adatbányász cikkekben mintavételezés esetén a Csernov-korlátos megközel´ıtéssel támasztják alá, hogy az a´ltaluk használt minta miért elég nagy. Most már tudjuk, hogy ez az elemzés meglehet˝osen elnagyolt. Egyrészt a hiba defin´ıciója sem t´ ul jó, másrést a Csernovkorlát alkalmazása sem ad pontos eredményt.


53

Jobb megoldás a hibát a valósz´ın˝ uség és a relat´ıv gyakoriság hányadosából származtatni és Csernov-korlát helyett a binomiális eloszlást használni. Mivel a végeredmény nem egy zárt képlet lesz, ezért a hiba vagy a sz¨ ukséges mintaméret kiszám´ıtása bonyolultabb. A binomiális eloszlás sem a legpontosabb eredményt adja. Az elemzés során ugyanis feltételezt¨ uk, hogy az esemény bekövetkezésének valósz´ın˝ usége ismert. A valóságban a mintát egy nagy alaphalmazból vessz¨ uk. Például a népszavazást megel˝oz˝o közvélemény-kutatásokban a mintát a feln˝ott lakosságból vessz¨ uk, amely egy véges halmaz. Ha u ´ gy tessz¨ uk fel a kérdést, hogy egy M alaphalmazból mekkora m mintát kell venn¨ unk, hogy a mintában az x relat´ıv gyakorisága kis mértékben térjen el az x M -beli relat´ıv gyakoriságától, akkor a binomiális eloszlás helyett hipergeometrikus eloszlást kell használnunk. Weka 3.5.7

A weka.filters.unsupervised.instance.RemovePercentage sz˝ ur˝ o az elemek egy adott sz´ azalék´ at t¨ orli. A weka.filters.unsupervised.instance.RemoveFolds megkeveri az adatb´ azist, majd egyenl˝ o méret˝ u részekre osztja és megtartja az egyik részt. A sz˝ ur˝ ot kereszt-valid´ aci´ ohoz szokt´ ak haszn´ alni (l´ asd 6.10 rész). Amennyiben azt szeretnék, hogy az oszt´ alyok eloszl´ asa megegyezzen minden részben (rétegzettség fogalma – l´ asd 6.10 rész), akkor haszn´ aljuk a weka.filters.supervised.instance.StratifiedRemoveFolds sz˝ ur˝ ot . A weka.filters.unsupervised.instance.Resample sz˝ ur˝ o egy véletlenszer˝ u részhalmaz´ at képzi az adathalmaznak. A sampleSizePercent opci´ oval sz´ azalékosan fejezhetj¨ uk ki az részhalmaz méretét az eredeti adathalmazhoz képest. Megadjuk, hogy a mintavételezéshez visszatevéses, vagy visszatevés nélk¨ uli m´ odszert haszn´ aljon. Az eredeti adathalmaznak el kell férnie a mem´ ori´ aban. A sz˝ ur˝ o fel¨ ugyelt v´ altozata (weka.filters.unsupervised.instance.Resample) abban k¨ ul¨ onb¨ ozik a fel¨ ugyelet nélk¨ uli v´ altozatt´ ol, hogy befoly´ asolhatjuk a mint´ aban az oszt´ aly eloszl´ as´ at. Ha a biasToUniformClass értéke 0, akkor nem v´ altozik az oszt´ aly eloszl´ asa, ha viszont 1, akkor minden oszt´ aly ugyanannyiszor fog el˝ ofordulni. weka.filters.unsupervised.instance.ReservoirSample Vitter ”R” algoritmus´ at felhaszn´ alva mintavételez. A weka.filters.supervised.instance.SpreadSubsample mintavételez˝ o sz˝ ur˝ o olyan részhalmazt fog el˝ oa ´ll´ıtani, amelyben a leggyakoribb és a legritk´ abb oszt´ alyok el˝ ofordul´ as´ anak h´ anyadosa kisebb, mint egy el˝ ore megadott konstans (distributionSpread).

3.3.8. Dimenzi´ ocs¨ okkent´ es Az adatbányászati alkalmazásokban az adathalmaz mérete a´ltalában nagy. Felmer¨ ul a kérdés, hogy lehet-e ezt a nagy adathalmazt egy kisebb méret˝ uvel helyettes´ıteni u ´ gy, hogy a kisebb adathalmaz valamilyen szempont szerint h˝ uen reprezentálja a nagy adathalmazt.


54

Természetesen az adatbányászati feladattól f¨ ugg az, hogy mit jelent pontosan a h˝ u reprezentáció. Ebben a részben dimenzió-csökkentésr˝ol lesz szó, melynek során az objektumok sok attrib´ utummal való le´ırását szeretnénk helyettes´ıteni kevesebb attrib´ utumot használó le´ırással. Hasonl´ os´ agtart´ o dimenzió-csökkentésr˝ol fogunk beszélni, ami azt jelenti, hogy tudunk adni egy olyan hasonlósági defin´ıciót az u ´ j le´ırásban, ami jó becslése az eredeti hasonlóságnak.

m

n

k

M

c M

Az eredeti adathalmazt az m×n-es M mátrixszal jellemezz¨ uk, az u ´ j le´ırást pedig az m×k-s c mátrixszal. Az n nagyon nagy lehet (az interneten egy¨ M utt el˝oforduló szópárok keresésénél például 109 kör¨ uli volt az értéke), ami azt jelenti, hogy az adatbázis nem biztos, hogy elfér c mátrixszal a memóriában. Ezt a problémát szeretnénk megker¨ ulni azzal, hogy az M -et az M c elférjen a memóriában. Ezáltal lehet˝ové válik helyettes´ıtj¨ uk u ´ gy, hogy k n annyira, hogy M olyan algoritmusok futtatása, amelyek feltételezik, hogy az adatokat le´ıró mátrix a gyors elérés˝ u memóriában található. Két speciális feladatot tárgyalunk. Az els˝oben az attrib´ utumok valós számok és két objektum k¨ ulönböz˝oségén (hasonlóság inverze) az Euklideszi távolságukat értj¨ uk. A második esetben az attrib´ utumok csak binárisak lehetnek, és két objektum hasonlóságát a Jaccard-koefficiens (lásd 3.2.1 rész) adja meg. Szingul´ aris felbont´ as A szinguláris felbontás az elméleti szempontból egyik legtöbbet vizsgált, klasszikus lineáris algebrai eszközöket használó dimenzió-csökkentési eljárás 1 . Ennek alkalmazása után nyert c mátrix soraiból jól közel´ıthet˝o az euklideszi távolság, illetve az attrib´ M utumok vektoraiból szám´ıtott skaláris szorzattal mért hasonlóság. Utóbbi megegyezik a koszinusz mértékkel, ha a mátrix sorai normáltak. Ebben a szakaszban néhány jelölés és alapvet˝o fogalom után definiáljuk a szinguláris felbontást, igazoljuk a felbontás létezését, majd megmutatjuk, hogy miként használható a felbontás dimenzió-csökkentésre. Megjegyezz¨ uk, hogy a szakasz nem mutat a gyakorlatban numerikus szempontból jól alkalmazható módszert a felbontás kiszám´ıtására. Kisebb adathalmaz esetén a´ltalános lineáris algebrai programcsomag (Matlab, Octave, Maple) használata javasolt, m´ıg nagyobb adatbázisoknál az adatok sajátosságát kihasználó szinguláris felbontó program (SVDPack) használata ajánlott. Egy U ∈ Rn×n mátrixot ortogon´ alisnak nevez¨ unk, ha oszlopai ortogonális rendszert alkotT nak, azaz U U = In , ahol In az n × n méret˝ u egységmátrixot, és U T az U transzponáltját jelöli. Másképpen mondva U invertálható és U −1 inverzére U −1 = U T teljes¨ ul. Mátrix ortogonalitásának szemléletes tárgyalásához sz¨ ukség¨ unk lesz a vektorok hosszának a´ltalános´ıtására, a 1

A statisztikusok a szingul´ aris felbont´ ast f˝ okomponens analizisnek (angolul: principal component analysis) h´ıvj´ ak


z 

Um×m

| Mm×n =  u1 |

z

  |   . . . um  ·   |   }|

{

Σm×n

σ1

..

.

}|

{

σr 0 ..

. 0

55

T Vn×n

}| z   { T  — v — 1     ..  ·   .  T  — v — n 

3.5. a´bra. A szinguláris felbontás sematikus vázlata. pP 2 norma fogalmára. Egy v∈Rn vektor kvk2 -vel jelölt 2-norm´ aj´ at a kvk2 = oséggel dei vi egyenl˝ 2 T finiáljuk. Egyszer˝ uen látható, hogy kvk2 = v v teljes¨ ul. A 2-norma a´ltalános´ıtása a tetsz˝oleges Mq ∈ Rm×n mátrix esetén értelmezett kM kF Frobenius-norma, amelynek defin´ıciója kM kF = P m Pn 2 = i=1 j=1 Mi,j . Visszatérve az ortogonalitás szemléletes jelentésére, egy ortogonális mátrix a´ltal reprezentált lineáris transzformációra u ´ gy gondolhatunk, mint egy forgatásra, amely a vektorok hosszát nem változtatja. A szemlélet alapja, hogy tetsz˝oleges U ∈ Rn×n ortogonális mátrix és x ∈ Rn vektor esetén kU xk2 = kxk2 teljes¨ ul. Az azonosság az alábbi elemi lépésekb˝ol következik : kU xk 22 =(U x)T (U x)=xT (U T U )x= = xT x = kxk22 . Hasonlóan belátható, hogy tetsz˝oleges X ∈ Rm×n mátrix esetén és U ∈ Rm×m illetve V ∈ Rn×n ortogonális mátrixok esetén igaz, hogy

U XV T = kXk . F F A rövid bevezet˝o után rátér¨ unk a szinguláris felbontás defin´ıciójára. Egy nem sz¨ ukségszer˝ uen négyzetes M ∈ Rm×n mátrix szingul´ aris érték felbont´ as´ an (singular value decomposition, SVD) az olyan M = U ΣV T

szorzattá bontást értj¨ uk, ahol U ∈ Rm×m , V ∈ Rn×n ortogonális mátrixok, továbbá a Σ mátrix M -mel megegyez˝o méret˝ u és a bal fels˝o sarokból 45◦ -ban lefele elhelyezked˝o σ1 ≥σ2 ≥. . .≥σr >0 pozit´ıv számokat csupa 0 követ és a többi elem szintén 0. A σi számokat szingul´ aris értékeknek nevezz¨ uk, és a σi = 0 választással terjesztj¨ uk ki az i > r esetre. A felbontásból látható, hogy rang(M ) = rang(Σ) = r. Az U és a V oszlopait bal-, illetve jobboldali szingul´ aris vektoroknak mondjuk. A jelölések a´ttekintése a 3.5. a´brán látható. 3.1. t´ etel. Tetsz˝ oleges M ∈ Rm×n m´ atrixnak létezik szingul´ aris érték felbont´ asa, azaz léteznek m×m n×n U ∈R , V ∈R ortogon´ alis m´ atrixok, melyekkel M = U ΣV T ,

ahol Σ∈R

m×n

,

Σ=

Σ+ 0 0 0

,


56

tov´ abb´ a Σ+ egy r × r méret˝ u diagon´ alis m´ atrix, amelynek f˝ oa ´tl´ oj´ aban a σ 1 ≥ σ2 ≥ . . . ≥ σr > 0 sz´ amok helyezkednek el sorrendben. Bizony´ıt´ as: Az M T M mátrix szimmetrikus, ezért ortogonális transzformációval diagonalizálható és sajátértékei valósak. Továbbá pozit´ıv szemidefinit, mert tetsz˝oleges x ∈ R n×n vektor esetén xT M T M x=(M x)T (M x)=kM xk22 ≥0, ezért a sajátértékek nem negat´ıvak. A sajátértékek legyenek σ12 ≥σ22 ≥. . .≥σr2 >0. Az ezekhez tartozó sajátvektorokból alkotott ortogonális mátrixot jelölje V , ekkor Σ+ 2 0 T T V M MV = . 0 0

A mátrixot két részre osztva V = (Vr V2 ), ahol Vr ∈ Rn×r a pozit´ıv sajátértékhez tartozó sajátvektorokat tartalmazza. Vagyis VrT M T M Vr = Σ+ 2 . Vezess¨ uk be az Ur = M Vr Σ+ −1 jelölést, ekkor M = Ur Σ+ VrT . Az Ur vektorai ortogonális vektorrendszert alkotnak, ezt tetsz˝olegesen kiegész´ıtve U = (U r U2 ) ortogonális mátrixszá Σ+ 0 V T. M =U 0 0 Most megmutatjuk, hogy szinguláris felbontás seg´ıtségével hogyan lehet dimenziócsökkentést végrehajtani. Emlékeztet¨ unk rá, hogy az M mátrix n-dimenziós sorvektorai objektumokat jellemeznek. Dimenzió-csökkentéskor az n attrib´ utumot szeretnénk k < n dimenziój´ u vektorokkal jellemezni u ´ gy, hogy közben az objektumok euklideszi távolsága vagy skaláris szorzattal mért hasonlósága csak kis mértékben változzon. A mátrixszorzás elemi tulajdonsága, hogy a szinguláris felbontás az alábbi formában is ´ırható. M = U ΣV

T

=

r X

σi ui viT ,

i=1

ahol ui viT a bal- illetve a jobboldali szinguláris vektorokból képzett diádszorzat, azaz egy oszlopés egy sorvektor szorzataként fel´ırt m×n méret˝ u 1-rang´ u mátrix. Látható, hogy az u i viT diádok monoton csökken˝o σi s´ ullyal szerepelnek az o¨sszegben. Innen adódik az o¨tlet, hogy k < r esetén csak az els˝o k legnagyobb s´ uly´ u diád o¨sszegével közel´ıts¨ uk az M mátrixot. Azaz Mk =

k X

σi ui viT = Uk Σk VkT ,

i=1

ahol Uk = (u1 u2 . . . uk ) és Vk = (v1 v2 . . . vk ), valamit Σk egy k × k méret˝ u diagonális mátrix, melynek f˝oa´tlójában a σ1 , σ2 , . . . , σk értékek vannak. Könnyen látható, hogy Mk sorai egy kdimenziós altérben helyezkednek el, hiszen rang(Mk ) = rang(Σk ) = k. Sokkal mélyebb eredmény a következ˝o, melynek bizony´ıtását mell˝ozz¨ uk.


57

3.2. t´ etel. Legyen M egy legal´ abb k rang´ u m´ atrix és legyen M k a fenti m´ odon sz´ am´ıtott k¨ ozel´ıtése. Ha a k¨ ozel´ıtés hib´ aj´ at Frobenius-norm´ aval mérj¨ uk, akkor a k-rang´ u m´ atrixok k¨ oz¨ ul az Mk m´ atrix a lehet˝ o legjobban k¨ ozel´ıti M -et, azaz kM − Mk kF =

min

N : rang(N )=k

kM − N kF .

Tov´ abb´ a a k¨ ozel´ıtés hib´ aja a σi szingul´ aris értékekkel kifejezhet˝ o: v uX u r σi2 . kM − Mk kF = t i=k+1

Az Mk mátrix sorai az M -éhez hasonlóan n méret˝ uek, de most már egy k-dimenziós altérnek az elemei. Ennek az altérnek egy bázisát alkotják a VkT sorai, és az M 0 = U k Σk mátrix k-dimenziós sorvektorai e bázisban fejezik ki az Mk sorait. Tehát a dimenzió-csökkentés eredménye, hogy az M mátrix n-dimenziós sorait a vet´ıtés után az M 0 mátrix k-dimenziós soraival közel´ıtj¨ uk. A VkT sorainak ortogonalitásából könnyen belátható, hogy az Mk , illetve az M 0 soraiból szám´ıtott euklideszi távolságok és skaláris szorzatok is megegyeznek. Tehát a közel´ıtés alatt torz´ıtás kizárólag az M -b˝ol Mk -ba történ˝o vet´ıtés során történik, melynek mértéke a 3.2. tétel alapján fel¨ ulr˝ol becs¨ ulhet˝o. Weka 3.5.7 A SVD-t a weka.attributeSelection.LatentSemanticAnalysis oszt´ alyon kereszt¨ ul érhetj¨ uk el.

F˝ okomponens anal´ızis Weka 3.5.7

A f˝ okomponens anal´ızist a weka.filters.unsupervised.attribute.PrincipalComponents sz˝ ur˝ o hajtja végre.

Minhash alap´ u lenyomat A következ˝okben az adathalmaz sok oszlopot és még több sort tartalmaz. Célunk a sorok számának csökkentése. A feladatot a következ˝o a´bra szemlélteti.


58

n

m

M

k

c M

Az M mátrix bináris és két oszlop (vektor) hasonlóságát a Jaccard-koefficiens adja meg. Kicsit érthetetlenebb módon fel´ırva a Jaccard értéket : di,j =

mi (mj )T , ||mi ||2 + ||mj ||2 − mi (mj )T

hiszen az mi (mj )T bináris vektorok esetében az azonos poz´ıciókban lév˝o 1-esek számát adja meg, ||mi ||2 pedig a vektor egyeseinek számát. Feltételezz¨ uk, hogy a bináris vektorok ritkák azaz, ha r-el jelölj¨ uk a sorokban az 1-esek a´tlagos számát, akkor r n. c mátrixot az M lenyomatmátrixának fogjuk h´ıvni. A lenyomatmátrixnak nem kell Az M binárisnak lennie, de azt természetesen most is elvárjuk, hogy a memóriaigénye jóval kevesebb legyen, mint az M memóriaigénye. További kikötés, hogy az adatok sorfolytonosan vannak tárolva, azaz el˝oször kiolvashatjuk az els˝o sort, majd a másodikat, és ´ıgy tovább. Ez a helyzet a´ll fel hasonló weboldalak kisz˝ urésénél, koppintások, kalózmásolatok felder´ıtésénél, hasonló tulajdonság´ u felhasználók keresésénél stb. Továbbá ezt a módszert alkalmazhatjuk, amikor hasonló eladás´ u termékpárokat keres¨ unk. Amennyiben a termékeket kis tételben értékes´ıtik, akkor az asszociációs szabályokat kinyer˝o technikák (lásd 5 fejezet) nem alkalmazhatóak. Gondolkozzunk el azon, hogy m˝ uködik-e az alábbi algoritmus. Válasszunk ki néhány sort véletlenszer˝ uen és tekints¨ uk ezeket lenyomatoknak. Két lenyomat hasonlóságának várható értéke meg fog egyezni az oszlopaik hasonlóságával. Ez alapján azt mondhatnánk, hogy a sorok egy véletlenszer˝ uen választott halmaza jó lenyomat. A fentiek ellenére ez az egyszer˝ u módszer nagyon rossz eredményt adna. Ennek oka az, hogy a mátrixunk nagyon ritka (rn), tehát egy oszlopban a legtöbb elem 0, ´ıgy nagy valósz´ın˝ uséggel a legtöbb lenyomat is csupa 0 elemb˝ol a´llna. A minhash alap´ u lenyomat egy elemét a következ˝oképpen a´ll´ıtjuk el˝o. Véletlenszer˝ uen permutáljuk meg a sorokat, majd válasszuk az j-edik oszlopok hash értékének (h) azt a legkisebb sorindexet, ahol 1-es szerepel a j-edik oszlopban. A véletlen permutáció természetesen csak elméleti megközel´ıtés, diszken található nagy adatbázis esetén t´ ul lass´ u m˝ uvelet. Ehelyett sorsoljunk ki minden sorhoz egy véletlen hash értéket. Amennyiben feltehetj¨ uk, hogy a 16 2 mátrix sorainak száma 2 -nál kisebb, akkor a sz¨ uletésnapi paradoxon alapján válasszunk 32 2

A sz¨ uletésnap paradoxonnal kapcsolatos kérdés a k¨ ovetkez˝ o : Mekkora a val´ osz´ın˝ usége annak az ” eseménynek, hogy emberek egy véletlenszer˝ uen v´ alasztott r f˝ os csoportj´ aban van legal´ abb két személy, akik egy


59

bit szélesség˝ u egyenletes eloszlás´ u véletlen számot. Az algoritmus tényleges implementálása során tehát egyesével olvassuk a sorokat, véletlen számot generálunk, és minden oszlopnak folyamatosan friss´ıtj¨ uk azt a változóját, ami megadja a legkisebb, 1-est tartalmazó sorindexet. Mivel egy lenyomatnak k darab eleme van, ezért minden oszlophoz k darab véletlen számot a´ll´ıtunk el˝o, és k darab hash értéket tároló változót tartunk karban. Vegy¨ uk észre, hogy a lenyomat el˝oa´ll´ıtáshoz egyszer megy¨ unk végig a mátrixon. Két lenyomat hasonlóságát a páronként egyez˝o lenyomatok számának k-hoz vett aránya adja meg, azaz ci,` = M cj,` }| |{` : M dbij = , k ci,` az M c mátrix i-edik oszlopának `-edik elemét jelöli. ahol M Be fogjuk bizony´ıtani, hogy dbij jó becslése dij -nek abban az értelemben, hogy ha i és j oszlopok nagyon hasonlók, akkor azok lenyomatai is nagy valósz´ın˝ uséggel hasonlók. Ehhez a következ˝o észrevételt használjuk fel. 3.3. ´ eszrev´ etel. Tetsz˝ oleges (i, j) oszlopp´ arra igaz, hogy ci,` = M cj,` ] = dij . P[M

Bizony´ıt´ as: Csak akkor lehet a két lenyomat azonos, ha a legalább az egyik oszlopban az 1est tartalmazó indexek köz¨ ul olyan sor kapta a legkisebb véletlen számot, amelynél mindkét oszlopban 1-es szerepel. Ennek valósz´ın˝ usége éppen dij , amennyiben a permutáció egyenletesen szórja szét az egyeseket.

´ most a hasonlóság meg˝orzésével kapcsolatos a´ll´ıtás : Es al kisebb 3.4. t´ etel. Legyenek 0<δ <1, és >0 val´ os sz´ amok. Amennyiben k >− ln2δ/2 2 , akkor δ-n´ a val´ osz´ın˝ usége annak, hogy a lenyomat és az eredeti hasonl´ os´ ag k¨ ul¨ onbsége -n´ al nagyobb. ci,` = M cj,` Bizony´ıt´ as: Tekints¨ uk az i, j oszlopokat. Definiáljuk Xl valósz´ın˝ uségi változót, ami 1 M esetén, k¨ ulönben 0. Legyen Y = X1 + . . . + Xk . ci,` = Xl binomiális eloszlás´ u és az el˝oz˝oekben kimondott észrevétel miatt E[X l ] = p = P(M Y cj,` ) = dij . A lenyomatok hasonlóságának defin´ıciójából adódik, hogy dbij = . Írjuk fel Y -re =M k 2.5.2 -es tételét : 2 P |Y − E[Y ]| > k ≤ 2e−2 k , amib˝ol adódik, hogy

2 P |dbij − dij | > ≤ 2e−2 k .

(365 r )·r! napon u ¨nneplik a sz¨ uletésnapjukat?”. Elemi kombinatorikus u ´ton a v´ alasz meghat´ arozhat´ o : p r = 1 − 365 ≈ r −r 2 . A feladat k¨ ovetkezménye az az a ´ll´ıt´ as, miszerint 2n elemnek 22n elem˝ u halmazb´ ol kell egyenletes ≈ 1−exp 3·365 eloszl´ as szerint véletlenszer˝ uen egyesével kulcsot sorsolni, hogy kicsi (exp(−3)<0.05) legyen annak val´ osz´ın˝ usége, hogy két elem ugyanazt a kulcsot kapja.

4. fejezet Gyakori elemhalmazok A gyakori elemhalmazok kinyerése az adatbányászat eltulajdon´ıthatatlan ter¨ ulete. A feladat vásárlói szokások kinyerésénél mer¨ ult fel részfeladatként. A nagy profitot els˝osorban a gyakran egy¨ utt vásárolt termékek, termékhalmazok jelentik, ´ıgy ezek kinyerése jelentette az els˝o lépést a feladat megoldásánál. Egyes alkalmazásokban a gyakori részstrukt´ urák, gyakori minták meghatárzásánál elemhalmazok helyett sorozatok, gyökeres fák, c´ımkézett gráfok vagy bool-formulákat kerestek. A 11 fejezetben bemutatjuk a gyakori minták bányászatának absztrakt modelljét, majd egyesével vessz¨ uk a k¨ ulönböz˝o t´ıpus´ u mintákat és megvizsgáljuk, hogy milyen technikák alkalmazhatók. A gyakori elemhalmazok bányászata nagyon népszer˝ u kutatási ter¨ ulet. A publikált algoritmusokkal könyveket lehetne megtölteni. Ebben a jegyzetben csak a legh´ıresebb algoritmusokat és o¨tleteket ismertetj¨ uk.

4.1. A gyakori elemhalmaz fogalma Legyen I = {i1 , i2 , . . . , im } elemek halmaza és T = ht1 , . . . , tn i az I hatványhalmaza felett értelmezett sorozat, azaz tj ⊆ I. A T sorozatot bemeneti sorozatnak h´ıvjuk, amelynek tj elemei a tranzakci´ ok . Az I ⊆ I elemhalmaz fedése megegyezik azon tranzakciók sorozatával, amelyeknek részhalmaza az I. Az I elemhalmaz t´ amogatotts´ aga a fedésének elemszámával egyezik meg (jelölésben supp(I)). Az I gyakori, amennyiben támogatottsága nem kisebb egy el˝ore megadott konstansnál, amelyet hagyományosan min supp-pal jelöl¨ unk, és t´ amogatotts´ agi k¨ usz¨ obnek h´ıvunk. A gyakori elemhalmazok keresése során adott egy uszöb, feladatunk megI elemhalmaz, T bemeneti sorozat, min supp támogatottsági k¨ határozni a gyakori elemhalmazokat és azok támogatottságát. Az egyszer˝ uség kedvéért a halmazt jelöl˝o kapcsos zárójeleket (s˝ot az elemek határoló vessz˝ot) gyakran elhagyjuk, tehát például az h{A, C, D}, {B, C, E}, {A, B, C, E}, {B, E}, {A, B, C, E}i sorozatot hACD, BCE, ABCE, BE, ABCEi formában ´ırjuk. Az a´ltalánosság megsértése nélk¨ ul feltehetj¨ uk, hogy az I elemein tudunk egy rendezést definiálni, és a minták illetve a tranzakciók elemeit minden esetben nagyság szerint növ˝o sorrendben tároljuk. Ezen rendezés szerinti lexikografikusan tudjuk rendezni az azonos méret˝ u halmazokat. A keresési teret u ´ gy képzelhetj¨ uk el, mint egy irány´ıtott gráfot, amelynek cs´ ucsai az elemhalmazok, és az I1 -b˝ol él indul I2 -be, amennyiben I1 ⊂ I2 , és |I1 |+1 = |I2 |. A keresési tér bejárásán mindig ezen gráf egy részének bejárását fogjuk érteni. Tehát például a keresési tér szélességi 60

4. FEJEZET. GYAKORI ELEMHALMAZOK

61

bejárása ezen gráf szélességi bejárását jelenti. Elterjedt, hogy a támogatottság helyett gyakoris´ agot, a támogatottsági k¨ uszöb helyett gyakoris´ agi k¨ usz¨ ob¨ ot használnak, melyeket f req(I)-vel, illetve min freq-kel jelölnek. Az I elemhalmaz gyakoriságán a supp(I)/|T | hányadost értj¨ uk. A gyakorlatban el˝oforduló adatbázisokban nem ritka, hogy az elemek száma 10 5 − 106 , a tranzakcióké pedig 109 − 1010 . Elméletileg már az eredmény ki´ırása is az I elemszámában exponenciális lehet, hiszen el˝ofordulhat, hogy I minden részhalmaza gyakori. A gyakorlatban a maximális méret˝ u gyakori elemhalmaz mérete |I|-nél jóval kisebb (legfeljebb 20-30). Ezen k´ıv¨ ul minden tranzakció viszonylag kicsi, azaz |tj | |I|. A keresési tér tehát nagy, ami azt jelenti, hogy az egyszer˝ u nyers er˝o módszerek (határozzuk meg minden elemhalmaz támogatottságát, majd válogassuk ki a gyakoriakat) elfogadhatatlanul lassan futnának. A kés˝obbiekben gyakran használjuk majd tranzakciók esetén a sz˝ urt” jelz˝ot. Egy tranzakció ” sz˝ urt tranzakcióját u ´ gy kaphatjuk meg, ha törölj¨ uk bel˝ole a ritka elemeket. A sz˝ urt tranzakciók minden információt tartalmaznak a gyakori elemhalmazok kinyeréséhez, ezért a legtöbb algoritmus els˝o lépése a gyakori elemek meghatározása, majd a sz˝ urt tranzakciók el˝oa´ll´ıtása. Ezután az eredeti adatbázist nem használják többé. A bemenetet illet˝oen három adattárolási módot szoktak elk¨ ulön´ıteni. Horizont´ alis adatb´ azisról beszél¨ unk, ha a tranzakciókat azonos´ıtóval látjuk el, és minden azonos´ıtóhoz tároljuk a tranzakcióban található elemeket. Vertik´ alis adatb´ azisn´ al minden elemhez tároljuk az elemet tartalmazó tranzakciók azonos´ıtóit (sorszámát). A vertikális tárolás nagy el˝onye, hogy gyorsan megkaphatjuk egy elemhalmaz fedését (az elemekhez tartozó kosarak metszetét kell képezni), amib˝ol közvetlen adódik a támogatottság. Mind a horizontális, mind a vertikális a´brázolási módnál használhatunk az elemek vagy tranzakciók felsorolása helyett rögz´ıtett szélesség˝ u bitvektorokat. Az i-edik elem (tranzakció) meglétét az i-edik poz´ıcióban szerepl˝o 1-es jelzi. tranzakció 1 2

elemhalmaz C A,B,C

elem A B C

tranzakcióhalmaz 2 2 1,2

tranzakció 1 2 2 2

elem C A B C

4.1. táblázat. Horizontális-, vertikális- és relációs tárolási mód Tudjuk, hogy egy tranzakcióban változó szám´ u elem lehet (és ford´ıtva : egy elem változó szám´ u tranzakcióban szerepelhet). A legtöbb mai adatbázis rel´ aci´ os t´ abl´ ak formájában van elmentve, amelyekben csak rögz´ıtett szám´ u attrib´ utum szerepelhet. A valóságban ezért a tranzakciók két attrib´ utummal rendelkez˝o relációs tábla formájában találhatók, ahol az els˝o attrib´ utum a tranzakciót, a második pedig az elemet adja meg (pontosabban a tranzakciók és az elemek azonos´ıtóit). A három tárolási módszerre mutatnak példát a 4.1 táblázatok. ´ azoljuk ezt, mint G = (I, T, R) A bemenetet elemhalmazok sorozataként definiáltuk. Abr´ irány´ıtatlan, páros gráf, vagy mint B bináris mátrix. Ha a t tranzakció tartalmazza az i elemet, akkor és csak akkor az (i, t) eleme R-nek. Vagy mátrix esetén a t sorának i eleme 1 (k¨ ulönben 0). A hACD, BCE, ABCE, BE, ABCEi bemenethez tartozó gráf és bináris mátrix a 4.1 és a 4.2 a´brán látható.


1

2

3

4

5

A

B

C

D

E

4.1. a´bra. Gráfos a´brázolási mód

62

1 2 3 4 5

A B 1 1 1 1 1 1 1

C 1 1 1 1

D E 1 1 1 1 1

4.2. a´bra. Bináris mátrixos a´brázolási mód

A bemeneti adatot szokták a s˝ ur˝ u (dense) illetve a ritka (sparse) jelz˝ovel illetni, amellyel a bináris mátrixban található 1-esek számára utalnak. Vásárlói kosarakat a´brázoló mátrix tipikusan ritka, ugyanis a kosarakban a´ltalában jóval kevesebb termék van (50-100), mint az o¨sszes termék száma (10 000-100 000). A tranzakciók száma a´ltalában nagy, de a mai tárolókapacitások mellett, még egészen nagy adatbázisok is elférnek a memóriában. Gondoljuk meg például, hogy egy 10 7 tranzakciót tartalmazó adatbázis csak 120 MB helyet k´ıván, amennyiben a tranzakciók a´tlagos mérete 6 elem. Csak extrém nagy adathalmazok esetén nem alkalmazhatók azok az algoritmusok, amelyek feltételezik, hogy a bemenet (vagy a sz˝ urt tranzakciók) elférnek a memóriában. Miel˝ott bemutatjuk az APRIORI módszert elemhalmazok esetén, gondolkozzunk el azon, vajon m˝ uködne-e az alábbi egyszer˝ u algoritmus a gyakorlatban. Olvassuk be a háttértárolóból az adatbázis els˝o blokkját, és vizsgáljuk meg az els˝o tranzakciót. Ennek a t 1 tranzakciónak az o¨sszes részhalmazát tároljuk el a memóriában és mindegyikhez rendelj¨ unk egy számlálót 1 kezdeti értékkel. Az I elemhalmazhoz rendelt számláló fogja tárolni I támogatottságát. Az els˝o tranzakció feldolgozása után vizsgáljuk meg sorban a többit : a t i tranzakció minden részelemhalmazának számlálóját növelj¨ uk eggyel, vagy vegy¨ uk fel a memóriába egy u ´j számlálóval, amennyiben az eddig feldolgozott tranzakcióban még nem fordult el˝o. Az adatbázis teljes végigolvasása után az o¨sszes – valahol el˝oforduló – elemhalmaz támogatottsága rendelkezés¨ unkre a´ll, amib˝ol könnyen megkaphatjuk a gyakoriakat. Látható, hogy ennél az egyszer˝ u algoritmusnál IO szempontjából gyorsabbat nem lehet találni, mert az adatbázis egyszeri végigolvasása mindenképpen sz¨ ukséges a támogatottság meghatározásához és ennél az algoritmusnál elég is. A gyakorlatban mégsem használják ezt a gyors és egyszer˝ u algoritmust. Ennek oka, hogy az életben el˝oforduló adatbázisokban nem ritka, hogy valamelyik tranzakció sok elemet tartalmaz. Egy a´tlagos szupermarketben mindennapos, hogy valaki 60 k¨ ulönböz˝o elemet vásárol. Ekkor csak a számlálók mintegy 16 ezer TB-ot foglalnának a memóriából, amennyiben a számlálók 4 byte-osak. A számlálókat mindenképpen a memóriában szeretnénk tartani, hogy elker¨ ulj¨ uk a folyamatos swappelést, hiszen egy u ´ j tranzakció vizsgálatánál nem tudjuk el˝ore, hogy melyik számlálót kell növelni. Abban az esetben, ha biztosan tudjuk, hogy a tranzakciók egyike sem tartalmaz sok elemet, vagy az adatbázis bináris értékeket tartalmazó mátrix formájában adott, ahol az oszlopok (attrib´ utumok) száma kicsi, akkor a fenti algoritmus hatékonyan használható. A fenti algoritmus kis módos´ıtását javasolták [11]-ben. Egyrészt csak olyan elemhalmazokat vizsgáltak, amelyek mérete nem halad meg egy el˝ore megadott korlátot, másrészr˝ol a vizsgált elemhalmazokat és számlálóikat – a gyors visszakeresés érdekében – szófában tárolták. A módszernek két s´ ulyos hátránya van : nem teljes (az algoritmus nem találja meg azokat az elemhalmazokat, amelyek mérete nagyobb az el˝ore megadott k¨ uszöbnél), továbbá t´ ulságosan nagy a memóriaigénye (sok lehet a hamis jelölt).


63

Amennyiben az adatbázisunk kicsi, akkor még a fenti egyszer˝ u algoritmusokat sem kell leprogramoznunk, mert egy teljesen szabványos adatbázis-lekérdez˝o nyelv seg´ıtségével megkaphatjuk a gyakori elemhalmazokat. Az alábbi SQL parancs a gyakori elempárokat adja eredmény¨ ul. SELECT I.elem,J.elem, COUNT(I.tranzakci´ o) FROM tranzakci´ ok I, tranzakci´ ok J WHERE I.tranzakci´ o=J.tranzakci´ o AND I.elem<J.elem GROUP BY I.elem, J.elem HAVING COUNT(I.tranzakci´ o) >= min_supp

4.3. a´bra. SQL utas´ıtás gyakori elempárok kinyeréséhez Látnunk kell, hogy a fenti parancs az o¨sszekapcsolás (FROM mez˝oben két tábla) m˝ uvelet miatt nem fog m˝ uködni, ha az adatbázis mérete t´ ul nagy. A következ˝okben bemutatjuk a három legh´ıresebb gyakori elemhalmazokat kinyer˝o (GYEK) algoritmust. Mindhárman az u ¨ res mintából indulnak ki. Az algoritmusok egy adott fázisában jel¨ oltnek h´ıvjuk azokat az elemhalmazokat, amelyek támogatottságát meg akarjuk határozni. Az algoritmus akkor teljes, ha minden gyakori elemhalmazt megtalál és helyes, ha csak a gyakoriakat találja meg. Mindhárom algoritmus három lépést ismétel. El˝oször jelölteket a´ll´ıtanak el˝o, majd meghatározzák a jelöltek támogatottságát, vég¨ ul kiválogatják a jelöltek köz¨ ul a gyakoriakat. Természetesen az egyes algoritmusok k¨ ulönböz˝o módon járják be a keresési teret (az o¨sszes lehetséges elemhalmazt), a´ll´ıtják el˝o a jelölteket, és k¨ ulönböz˝o módon határozzák meg a támogatottságokat. Az a´ltalánosság megsértése nélk¨ ul feltehetj¨ uk, hogy az I elemein tudunk definiálni egy teljes rendezést, és a jelöltek, illetve a tranzakciók elemeit ezen rendezés szerint tároljuk. Más szóval az elemhalmazokat sorozatokká alak´ıtjuk. Egy sorozat `-elem˝ u prefixén a sorozat els˝o ` eleméb˝ol képzett részsorozatát értj¨ uk. A példákban majd, amennyiben a rendezésre nem tér¨ unk ki k¨ ulön, az a´bécé szerinti sorrendet használjuk. A GYEK algoritmusok a´ltalában érzékenyek a használt rendezésre. Ezért minden algoritmusnál megvizsgáljuk, hogy milyen rendezést célszer˝ u használni annak érdekében, hogy a futási id˝o, vagy a memóriasz¨ ukséglet a lehet˝o legkisebb legyen. A jelölt-el˝oa´ll´ıtás ismétlés nélk¨ uli, amennyiben nem a´ll´ıtja el˝o ugyanazt a jelöltet többféle módon. Ez a hatékonyság miatt fontos, ugyanis ismétléses jelölt-el˝oa´ll´ıtás esetében minden jelölt el˝oa´ll´ıtása után ellen˝orizni kellene, hogy nem a´ll´ıtottuk-e el˝o már korábban. Ha ezt nem tessz¨ uk, akkor feleslegesen köt¨ unk le er˝oforrásokat a támogatottság ismételt meghatározásánál. Mindhárom ismertetett algoritmusban a jelöltek el˝oa´ll´ıtása ismétlés nélk¨ uli lesz, amit a rendezéssel tudunk garantálni. Az algoritmusok pszeudokódjaiban GY -vel jelölj¨ uk a gyakori elemhalmazok halmazát, J-vel a jelöltekét és j.számláló-val a j jelölt számlálóját. Az olvashatóbb kódok érdekében feltessz¨ uk, hogy minden számláló kezdeti értéke nulla, és az olyan halmazok, amelyeknek nem adunk kezdeti értéket (például GY ), nem tartalmaznak kezdetben egyetlen elemet sem.


64

4.2. Az Apriori algoritmus Az Apriori algoritmus az egyik legels˝o GYEK algoritmus. Szélességi bejárást valós´ıt meg, ami azt jelenti, hogy a legkisebb mintából (ami az u ¨ res halmaz) kiindulva szintenként halad el˝ore a nagyobb méret˝ u gyakori elemhalmazok meghatározásához. A következ˝o szinten (iterációban) az eggyel nagyobb méret˝ u elemhalmazokkal foglalkozik. Az iterációk száma legfeljebb eggyel több, mint a legnagyobb gyakori elemhalmaz mérete. A jelöltek definiálásánál a következ˝o egyszer˝ u tényt használja fel : Gyakori elemhalmaz minden részhalmaza gyakori. Az a´ll´ıtást indirekten nézve elmondhatjuk, hogy egy elemhalmaz biztosan nem gyakori, ha van ritka részhalmaza. Ennek alapján ne legyen jelölt azon elemhalmaz, amelynek van ritka részhalmaza. Az Apriori algoritmus ezért ép´ıtkezik lentr˝ol. Egy adott iterációban csak olyan jelöltet vesz¨ unk fel, amelynek o¨sszes valódi részhalmazáról tudjuk, hogy gyakori. Az algoritmus onnan kapta a nevét, hogy az `-elem˝ u jelölteket a bemeneti sorozat `-edik a´tolvasásának megkezdése el˝ott (a priori) a´ll´ıtja el˝o. Az `-elem˝ u jelöltek halmazát J ` -lel, az `-elem˝ u gyakori elemhalmazokat pedig GY` -lel jelölj¨ uk. Algorithm 1 Apriori Require: T : tranzakciók sorozata, min supp : támogatottsági k¨ uszöb, `←0 J` ← {∅} while |J` | 6= 0 do támogatottság meghatározás( T , J` ) ; GY1 ← gyakoriak kiválogatása( J` , min supp ) ; J`+1 ← jelölt el˝oa´ll´ıtás( GY` ) ; ` ← `+1; end while return GY A kezdeti értékek beáll´ıtása után egy ciklus következik, amely akkor ér véget, ha nincsen egyetlen `-elem˝ u jelölt sem. A cikluson bel¨ ul el˝oször meghatározzuk a jelöltek támogatottságát. Ehhez egyesével vessz¨ uk a tranzakciókat, és azon jelöltek számlálóját növelj¨ uk eggyel, amelyeket tartalmaz a vizsgált tranzakció. Ha rendelkezésre a´llnak a támogatottságok, akkor a jelöltek köz¨ ul kiválogathatjuk a gyakoriakat. Weka 3.5.7

Gyakori elemhalmazokat u ´gy nyerhet¨ unk ki, ha asszoci´ aci´ os szab´ alyokat keres¨ unk Apriori algoritmussal. Ehhez az Associate f¨ ulre kell klikkeln¨ unk, majd a Apriori kell v´ alasztanunk, mint Associator. Alapb´ ol a m´ odszer csak asszoci´ aci´ os szab´ alyokat nyer ki, de ha az outputItemSets paramétert igazra a ´ll´ıtjuk, akkor megkaphatjuk a gyakori elemhalmazokat is. A m´ odszer f˝ o h´ atr´ anya, hogy asszoci´ aci´ os szab´ alyokat keres, nem pedig gyakori elemhalmazokat ezért nem tudjuk elérni, hogy az adott min supp-n´ al nagyobb t´ amogatotts´ ag´ u elemhalmazokat adja meg. A weka.associations.Apriori oszt´ alyr´ ol b˝ ovebben az asszoci´ aci´ os szab´ alyok fejezetben ´ırunk a 104. oldalon.


65

4.2.1. Jel¨ oltek el˝ o´ all´ıt´ asa ¨ lt-elo ˝a ´ll´ıta ´s f¨ A Jelo uggvény az `-elem˝ u gyakori elemhalmazokból (`+1)-elem˝ u jelölteket a´ll´ıt el˝o. Azok és csak azok az elemhalmazok lesznek jelöltek, amelyek minden részhalmaza gyakori. A jelöltek el˝oa´ll´ıtása során olyan `-elem˝ u, gyakori I1 , I2 elemhalmaz párokat keres¨ unk, amelyekre igaz, hogy – I1 lexikografikusan megel˝ozi I2 -t, – I1 -b˝ol a legnagyobb elem törlésével ugyanazt az elemhalmazt kapjuk, mintha az I 2 -b˝ol törölnénk a legnagyobb elemet. Ha a feltételeknek megfelel˝o párt találunk, akkor képezz¨ uk a pár unióját, majd ellen˝orizz¨ uk, hogy a kapott elemhalmaznak minden valódi részhalmaza gyakori-e. A támogatottság antimonotonitása miatt sz¨ ukségtelen az o¨sszes valódi részhalmazt megvizsgálni ; ha mind az ` + + 1 darab `-elem˝ u részhalmaz gyakori, akkor az o¨sszes valódi részhalmaz is gyakori. Az I 1 , I2 halmazokat a jelölt gener´ atorainak szokás h´ıvni. 4.1. p´ elda. Legyenek a 3-elem˝ u gyakori elemhalmazok a k¨ ovetkez˝ ok : GY 3 = {ABC, ABD, ACD, ACE, BCD}. Az ABC és ABD elemhalmazok megfelelnek a feltételnek, ezért képezz¨ uk az uni´ ojukat. Mivel ABCD minden h´ aromelem˝ u részhalmaza a GY 3 -nak is eleme, az ABCD jel¨ olt lesz. Az ACD, ACE p´ ar is megfelel a két feltételnek, de uni´ ojuknak van olyan részhalmaza (ADE), amely nem gyakori. Az Apriori a k¨ ovetkez˝ o iter´ aci´ oban teh´ at m´ ar csak egyetlen jel¨ olt t´ amogatotts´ ag´ at hat´ arozza meg. A fenti módszer csak akkor alkalmazható, ha `>0. Az egyelem˝ u jelöltek el˝oa´ll´ıtása egyszer˝ u: minden egyelem˝ u halmaz jelölt, amennyiben az u ¨ res elemhalmaz gyakori (|T | ≥ min supp). Ez o¨sszhangban a´ll azzal, hogy akkor lehet egy elemhalmaz jelölt, ha minden részhalmaza gyakori.

4.2.2. Jel¨ oltek t´ amogatotts´ ag´ anak meghat´ aroz´ asa A jelöltek el˝ofordulásait o¨ssze kell számolni. Ehhez egyesével vizsgáljuk a kosarakat, és azon jelöltek számlálóit növelj¨ uk eggyel, amelyeket tartalmaz a kosár. 1- ´ es 2-elem˝ u jel¨ oltek t´ amogatotts´ aga Könny˝ u dolgunk van, amennyiben a jelöltek mérete 1 vagy 2. A feladatot megoldhatjuk egy olyan lista, illetve féltömb seg´ıtségével, amelyekben a számlálókat tároljuk. Az elemek támogatottságának meghatározásánál a lista j-edik eleme tárolja a j-edik elem számlálóját. A tranzakciók feldolgozásánál végigmegy¨ unk a tranzakció elemein és növelj¨ uk a megfelel˝o cellákban található számlálókat. Az els˝o végigolvasás után kiválogathatjuk a gyakori elemeket. A továbbiakban már csak ezekkel az elemekkel dolgozunk, ´ıgy u ´ j sorszámokat adhatunk nekik a [1..|GY 1 |] intervallumból (emlékeztet˝ou ¨ l GYj -vel jelölj¨ uk a j-elem˝ u gyakori mintákat). Az l és k-adik elemekb˝ol a´lló pár


66 1 2 3 1 2 .. .

|GY1 | − 2 |GY1 | − 1

. . . . . 1 2 3

N-1 N

supp(j)=vector[j]

... ...

|GY1 | − 1

supp({l, k})=tömb[l][k-l]

4.4. a´bra. Adatstrukt´ urák az 1- és 2-elem˝ u jelöltek támogatottságának meghatározásához. támogatottságát a tömb l-edik sorának (k − l)-edik eleme tárolja (az a´ltalánosság megsértése nélk¨ ul feltehetj¨ uk, hogy l < k). Ha egy számláló 4 byte-ot foglal, akkor a tömb helyigénye nagyjából 4 · |GY2 1 | byte. Azon elempárokhoz tartozó tömbelem értéke, amelyek sosem fordulnak el˝o egy¨ utt, 0 lesz. Helyet takar´ıthatunk meg, hogy ha csak akkor vessz¨ uk fel egy jelöltpár számlálóját, ha a párt legalább egy tranzakció tartalmazza [128]. A párok támogatottságának meghatározása kevesebb memóriát fog igényelni, de ezzel egy¨ utt lassabb is lesz. Nagyobb elemhalmazok t´ amogatotts´ aga Vizsgáljuk meg részletesebben az 5. sort. Adott egy tranzakció és `-méret˝ u jelöltek egy halmaza. Feladatunk meghatározni azon jelölteket, amelyek a tranzakció részhalmazai. Megoldhatjuk ezt egyszer˝ uen u ´ gy, hogy a jelölteket egyesével vessz¨ uk, és eldöntj¨ uk, hogy tartalmazza-e o˝ket a tranzakció. Rendezett halmazban rendezett részhalmaz keresése elemi feladat. Vegy¨ unk fel két mutatót, amelyek a kosár, illetve a jelölt elemein fognak végighaladni. Kezdetben mutasson mindkét mutató az elemhalmazok els˝o elemeire. kosármutató Amennyiben a két mutató a´ltal mutatott elemek meg? egyeznek, akkor léptess¨ uk mindkét mutatót a követkosár : A B C D E F G I kez˝o elemre. Ha a tranzakcióban található elem kisebb sorszám´ u, akkor csak a kosár mutatóját léptess¨ uk, eljelölt : B E G lenkez˝o esetben pedig a´lljunk meg ; ekkor a kosár biz6 tosan nem tartalmazza a jelöltet. Ha a jelölt utolsó eleme is megegyezik a kosár valamelyik elemével, akjelöltmutató kor a kosár tartalmazza a jelöltet. Ennek az egyszer˝ u módszernek a hátránya, hogy sok jelölt esetén lass´ u, hiszen annyiszor kell a tranzakció elemein végighaladni, amennyi a jelöltek száma. A gyorsabb m˝ uködés érdekében a jelölteket szófában vagy hash-fában (hash-tree) célszer˝ u tárolni. A szófát szokás prefix-fának vagy lexikografikus fának is h´ıvni [3]. Az eredeti Apriori implementációban hash-fát alkalmaztak, azonban tesztek bizony´ıtják, hogy a szófa gyorsabb m˝ uködést eredményez, mint a hash-fa. A hash-fa szófával való helyettes´ıtésér˝ol már a [123]-ban ´ırtak, ahol a szófát alkalmazó Apriori algoritmust SEAR-nek nevezték el. A továbbiakban a szófában való keresést ismertetj¨ uk (a szófák felép´ıtésér˝ol és t´ıpusairól az alapfogalmak 2.8.1 részében már szóltunk).


67

A B C

B C

D

C D

D

4.5. a´bra. Az ABC, ABD, ACD, BCD jelölteket tároló szófa. A sz´ ofa éleinek c´ımkéi elemek lesznek. Minden cs´ ucs egy elemhalmazt reprezentál, amelynek elemei a gyökérb˝ol a cs´ ucsig vezet˝o u ´ t éleinek c´ımkéivel egyeznek meg. Feltehetj¨ uk, hogy az egy cs´ ucsból induló élek, továbbá az egy u ´ ton található élek c´ımkék szerint rendezve vannak (pl. legnagyobb elem az els˝o helyen). A jelöltek számlálóit a jelöltet reprezentáló levélhez rendelj¨ uk. A 4.5. a´brán egy szófát láthatunk. A t tranzakcióban az `-elem˝ u jelölteket u ´ gy találjuk meg, hogy a jelölteket le´ıró fa gyökeréb˝ol kiindulva, rekurz´ıv módon bejárunk bizonyos részfákat. Ha egy d szint˝ u bels˝o cs´ ucshoz a tranzakció j-edik elemén kereszt¨ ul jutunk, akkor azon élein kereszt¨ ul lép¨ unk eggyel mélyebb szintre, amelyeknek c´ımkéje megegyezik a tranzakció j 0 -edik elemével, ahol j < j 0 ≤ |t| − ` + d (ugyanis ` − d elemre még sz¨ ukség van ahhoz, hogy levélbe érj¨ unk). Ha ily módon eljutunk egy ` szint˝ u cs´ ucshoz, az azt jelenti, hogy a cs´ ucs a´ltal reprezentált elemhalmazt tartalmazza t, ´ıgy ennek a levélnek a számlálóját kell növeln¨ unk eggyel. A szófát prefix fának is szokták h´ıvni, ami arra utal, hogy a közös prefixeket csak egyszer tárolja. Ett˝ol lesz gyorsabb a szófás támogatottság-meghatározás a naiv módszernél. A közös prefixeket o¨sszevonjuk, és csak egyszer foglalkozunk vel¨ uk. A szófa nagy el˝onye a gyors támogatottság-meghatározás mellett, hogy a jelölt-el˝oa´ll´ıtást is támogatja. Tudjuk, hogy két gyakori elemhalmaz akkor lesz generátor, ha a legnagyobb sorszám´ u elem¨ uk elhagyásával ugyanazt az elemhalmazt kapjuk, vagy más szavakkal, a két gyakori elemhalmaz ` − 1 hossz´ u prefixei megegyeznek. A támogatottság-meghatározásában használt szófát felhasználhatjuk a következ˝o iterációs lépés jelöltjeinek az el˝oa´ll´ıtására, hiszen a szófa tárolja a jelölt-el˝oa´ll´ıtáshoz sz¨ ukséges gyakori elemhalmazokat. Az egész algoritmus alatt tehát egyetlen szófát tartunk karban, amely az algoritmus kezdetekor csak egy cs´ ucsból a´ll (ez reprezentálja az u ¨ res halmazt). A támogatottság-meghatározás után törölj¨ uk azon leveleket, amelyek számlálója kisebb min supp-nál. Az iterációs lépés végére kialakuló szófa alapján el˝oa´ll´ıtjuk a jelölteket, amely során a szófa u ´ j, eggyel mélyebb szinten lév˝o levelekkel b˝ov¨ ul. A jelölt-el˝oa´ll´ıtás során arra is lehet˝oség¨ unk van, hogy az el˝oz˝o iterációban gyakorinak talált elemhalmazokat és azok számlálóit ki´ırjuk (a kimenetre vagy a háttértárolóra). A rendez´ es hat´ asa az Apriori algoritmusra Amennyiben a szófa hatékony adatstrukt´ ura sorozatok tárolására, és gyors visszakeresésére, akkor ugyanez mondható el elemhalmazok esetére is. Ha tehát elemhalmazok adottak és az a feladat, hogy gyorsan megállap´ıtsuk, hogy egy elemhalmaz szerepel-e a megadottak között, akkor elég definiálnunk az elemeken egy teljes rendezést, ami alapján a halmazokat sorozatokká alak´ıthatjuk. K¨ ulönböz˝o rendezések k¨ ulönböz˝o sorozatokat a´ll´ıtanak el˝o, amelyek k¨ ulönböz˝o szófákat eredményeznek. Erre mutat példát a következ˝o a´bra, ahol két olyan szófát láthatunk, ame-


68

lyek a AB, ABC elemhalmazokat tárolják. Az els˝o szófa az ABC szerint csökken˝o sorrendet használ (C ≺ B ≺ A), m´ıg a második ennek ellenkez˝ojét. 0

0 B

A

C

1

1 C

A

B 2

2

3

A

3

4

4.6. a´bra. Példa : k¨ ulönböz˝o rendezést használó szófák Egy szófa memóriaigénye arányos a szófa pontjainak számával, ´ıgy jogos az az igény, hogy azt a teljes rendezést válasszuk, amely a legkevesebb pont´ u, azaz minimális méret˝ u szófát adja. Ez az u ´ n. minimális szófa el˝oa´ll´ıtásának feladata. Sajnos ez egy nehéz feladat. 4.2. t´ etel. A minim´ alis sz´ ofa probléma NP-nehéz . Eredetileg a feladatot n-esekre bizony´ıtották, de ebb˝ol következik, hogy halmazokra is érvényes. Legyen ugyanis az alaphalmaz I. Ekkor minden halmazt felfoghatunk, mint egy |I| hossz´ u bináris értékeket tartalmazó vektort. A fenti példát szemlélve az embernek az az érzése támad, hogy az a rendezés adja a legkevesebb cs´ ucs´ u szófát, amelyeben az elemek a halmazokban való el˝ofordulások számának arányában csökken˝o sorba vannak rendezve. Ugyanis a gyakori elemek fognak a halmazok kapott sorozatok elejére ker¨ ulni, és ezek az elemek, mivel gyakoriak sok sorozat elején lesznek megtalálhatók. A szófa a közös prefixeket csak egyszer tárolja, ´ıgy akkor lesz a szófa mérete várhatóan a legkisebb, ha minél több sorozatnak van közös prefixe. Az el˝oz˝o a´bra is ezt sugallta. Sajnos a fenti módon kapott szófa nem feltétlen¨ ul adja a legkevesebb pontot tartalmazó szófát. Ezt a legegyszer˝ ubben egy ellenpéldával tudjuk bizony´ıtani. Legyenek a halmazaink a következ˝oek : AB, AC, CZ, BCZ, BZ, Z. A Z elem gyakorisága 4, a B, C-é 3 és az A elemé 2. Ha felrajzoljuk ezen gyakoriságok alapján kapott rendezés (Z > B > C > A, de a C, B elemek sorrende tetsz˝oleges lehet) szerinti szófát, akkor a bal oldali szófát kapjuk. Ha az A és B, C elemek sorrendjét felcserélj¨ uk, akkor eggyel kevesebb pontot tartalmazó szófát kapunk (jobb oldal). T≺DESC

TOP T

0 B Z

1 B 4

2

C 5

0

C 3

6

7

B 3

2 C

C B 4

5

6

C

C 8

Z

1 A

A

A

7

4.7. a´bra. Ellenpélda arra, hogy az el˝ofordulás szerinti csökken˝o sorrend adja a minimális méret˝ u szófát Tapasztalatok alapján gyakoriság szerint csökken˝o rendezés kisebb szófát eredményez, mint a gyakoriság szerint növekv˝o rendezés, vagy más véletlenszer˝ uen megválasztott rendezések.


69

Ennek ellenére olyan szófát célszer˝ u alkalmazni, amelyben az elemeken értelmezett rendezés a gyakoriság szerint növekv˝o sorrendnek felel meg. Ennek ugyanis két el˝onye van. Egyrészr˝ol a szófa pontjai kisebbek lesznek (kevesebb él indul ki bel˝ol¨ uk), de ami még fontosabb, hogy a ritka elemek lesznek közel a gyökérhez. A ritka elemekkel kevesebb kosárbeli elem fog egyezni, ezáltal a szófa kisebb részét járjuk be a támogatott jelöltek meghatározása során. A továbbiakban bemutatunk néhány gyors´ıtási o¨tletet, amelynek seg´ıtségével nagymértékben lecsökkenthet˝o a szófa alap´ u Apriori algoritmus futási ideje és memóriaigénye.

4.2.3. Ritka jel¨ oltek t¨ orl´ ese Ritka jelöltek törléséhez és a gyakori jelöltek ki´ırásához be kell járnunk a szófát és amikor levélbe ér¨ unk, akkor o¨ssze kell hasonl´ıtani a levél számlálóját a támogatottsági k¨ uszöbbel. Ha a számláló nagyobb, akkor az eredményfájlba ´ırjuk a levél a´ltal reprezentált halmazt és a számlálót. Ellenkez˝o esetben törölj¨ uk a levelet. A bejárást megtakar´ıthatjuk, ha a fenti m˝ uveletet a jelöltek el˝oa´ll´ıtásával egy¨ utt tessz¨ uk meg. A jelöltek el˝oa´ll´ıtásánál is be kell járni a szófát. A testvér levelek köz¨ ul törölj¨ uk a ritka jelölteket, majd a megmaradtakból generáljunk u ´ j, eggyel nagyobb méret˝ u jelölteket.

4.2.4. Zs´ akutca nyes´ es Sz¨ ukségtelen tárolni azon cs´ ucsokat, amelyekb˝ol az o¨sszes elérhet˝o levelet törölt¨ uk. Ezek ugyanis lass´ıtják a támogatottságok meghatározását (miközben szerepet nem játszanak benne) és feleslegesen foglalják a memóriát. Nem mindegy azonban, hogy mikor távol´ıtjuk el a zsákutcákat. Ha például a AB, AC, BC két-elem˝ u jelölt lett gyakori, akkor a BC levélb˝ol (de az AC-ból sem) nem fogunk u ´ j levelet felvenni, azaz a BC levél zsákutca lesz. Ezt a levelet azonban nem törölhetj¨ uk az ABC u ´j jelölt felvétele el˝ott, hiszen a BC halmaz az ABC-nek valódi részhalmaza, ´ıgy sz¨ ukséges, hogy szerepeljen a fában. Könny˝ u belátni, hogy tetsz˝oleges I halmaz nem generátor, eggyel kisebb méret˝ u, valódi részhalmaza lexikografikus rendezés szerint I után következik. Ezért, ha preorder bejárást használunk a jelöltek el˝oa´ll´ıtása során, akkor egy levelet azonnal törölhet¨ unk, ha bel˝ole nem tudtunk u ´ j levelet felvenni. Garantált, hogy egyetlen részhalmazt sem törölt¨ unk még, hiszen a valódi, nem generátor részhalmazokat csak kés˝obb fogjuk meglátogatni a preorder bejárás szerint.

4.2.5. A bemenet t´ arol´ asa Amikor megvizsgálunk egy kosarat annak érdekében, hogy eldönts¨ uk, mely jelölteket tartalmazza, akkor az operációs rendszer a háttértárolóból bemásolja a tranzakciót a memóriába. Ha van elég hely a memóriában, akkor a tranzakció ott is marad, és amikor ismét sz¨ ukség van rá, nem kell lass´ u IO m˝ uveletet végezn¨ unk. A bemenetet tehát sz¨ ukségtelen explicit eltárolnunk a memóriában, hiszen az operációs rendszer ezt megteszi helyett¨ unk. S˝ot, ha a program eltárolja a bemeneti adatot (például egy listában), akkor a valóságban duplán lesz eltárolva. A bemenet tárolásának vannak el˝onyei is. Például o¨sszegy˝ ujthetj¨ uk az azonos tranzakciókat és ahelyett, hogy többször hajtanánk végre ugyanazon a tranzakción a támogatott jelöltek meghatározását, ezt egyszer tessz¨ uk meg. Sz¨ ukségtelen az eredeti tranzakciókat tárolni. Az


70

els˝o végigolvasás után rendelkezésre a´llnak a gyakori elemek. A ritka elemek u ´ gysem játszanak szerepet, ezért elég a tranzakcióknak csak a gyakori elemeit tárolni. Ennek további el˝onye, hogy sokkal több azonos ,,sz˝ urt” tranzakció lehet, ezáltal tovább csökken a támogatott jelölteket keres˝o eljárás megh´ıvásának száma. Ráadásul az `-edik végigolvasás során törölhetj¨ uk azokat a sz˝ urt tranzakciókat, amelyek nem tartalmaznak egyetlen `-elem˝ u jelöltet sem. A sz˝ urt tranzakciókat célszer˝ u olyan adatstrukt´ urában tárolni, amit gyorsan fel lehet ép´ıteni (azaz gyorsan tudjuk besz´ urni a sz˝ urt tranzakciókat) és gyorsan végig tudunk menni a besz´ urt elemeken. Alkalmazhatunk erre a célra egy szófát, de tesztek azt mutatják, hogy egy pirosfekete fa (kiegyens´ ulyozott bináris fa), amelynek cs´ ucsaiban egy-egy sz˝ urt tranzakció található, még jobb megoldás, mert jóval kisebb a memóriaigénye.

4.2.6. Tranzakci´ ok sz˝ ur´ ese A feldolgozás során a tranzakciókat módos´ıthatjuk/törölhetj¨ uk annak érdekében, hogy az Apriori még hatékonyabb legyen. A tranzakció sz˝ urése alatt a tranzakció olyan elemeinek törlését értj¨ uk, amelyek nem játszanak szerepet az algoritmus kimenetének el˝oa´ll´ıtásában. A nem fontos elemek lass´ıtják az algoritmust, gondoljunk itt a támogatottság meghatározásának módjára. A szófa egy bels˝o csomópontjánál meg kell határoznunk a közös elemeket az élek c´ımkéinek és a tranzakció elemeinek halmazában. Minél több elem van a tranzakcióban, annál tovább tart ez a m˝ uvelet. Sz˝ urésnek tekinthetj¨ uk az els˝o iteráció után végrehajtott lépést : 1. sz˝ ur˝ oo ¨tlet. Minden tranzakci´ ob´ ol t¨ or¨ olj¨ uk a ritka elemeket. Egyszer˝ u sz˝ ur˝o o¨tletek a következ˝ok : 2. sz˝ ur˝ oo ¨tlet. Az `-edik iter´ aci´ oban a t tranzakci´ o feldolgoz´ asa ut´ an t¨ or¨ olj¨ uk a t-t, amennyiben a t elemeinek sz´ ama nem nagyobb, mint `. Nyilv´ anval´ o, hogy ez a tranzakci´ o nem tartalmaz olyan elemhalmazt, amely a kés˝ obbi iter´ aci´ oban lesz jel¨ olt. 3. sz˝ ur˝ oo ¨tlet. T¨ or¨ olj¨ uk a tranzakci´ ot, amennyiben az nem tartalmaz jel¨ oltet. Ennek az o¨tletnek a jav´ıtott változata : 4. sz˝ ur˝ oo ¨tlet. T¨ or¨ olj¨ uk a tranzakci´ o azon elemeit, amelyek nem elemei egyetlen olyan jel¨ oltnek sem, amelyet tartalmaz a tranzakci´ o. Amennyiben az ´ıgy keletkezett tranzakció mérete `, akkor törölj¨ uk teljesen a tranzakciót. Például, ha a háromelem˝ u jelöltek halmaza {ABC, ABD, BCD, F GH} és t = ABCDH, akkor a H elemet törölhetj¨ uk a tranzakcióból. t0 = ABCGH esetében a teljes tranzakciót törölj¨ uk. Az el˝oz˝o sz˝ ur˝oo¨tletet tovább szigor´ıthatjuk. Mi kell ahhoz, hogy egy elem eleme legyen majd egy olyan `+ A vérnyom´ as és a nemzetek boldogs´ aga +1-elem˝ u j jelöltnek a következ˝o iterációban, amelyet k¨ oz¨ otti o ¨sszef¨ uggésekre mutatott r´ a egy tartalmaz az aktuális jelölt. Sz¨ ukséges feltétel, hogy a amerikai kutat´ o : Az amerikai kutat´ ok ” j minden `-elem˝ u részhalmazát tartalmazza a tranz- szerint az eredm´ enyek egészen egyakció. A j egy eleme pontosan ` darab részhalmaznak szer˝ uek, a boldog orsz´ agokb´ ol sz´ armaz´ o az eleme. Ez alapján : emberek - svédek, d´ anok, britek és hollandok - kevesebbet szenvednek a magas vérnyom´ ast´ ol, mint a németek, vagy a portug´ alok, akik az eur´ opai boldogs´ agsk´ ala végén tal´ alhat´ ok.” Forrás : http://www.karpatinfo. net/article38511.html


71

5. sz˝ ur˝ oo ¨tlet. T¨ or¨ olj¨ uk a tranzakci´ o azon elemeit, amelyek nem elemei ` darab olyan jel¨ oltnek, amelyet tartalmaz a tranzakci´ o. Természetesen most is igaz, hogy ez után a sz˝ urés után alkalmazzuk a második sz˝ ur˝o o¨tletet, ha ez lehetséges. A fenti példában a t00 = ABCF GH tranzakciót ez a sz˝ urés teljes egészében törli.

4.2.7. Equisupport nyes´ es Az egyenl˝o támogatottság´ u elemhalmazok alapján történ˝o, u ´ n. equisupport nyesés talán a legelterjedtebb tr¨ ukk a gyakori elemhalmazok kinyerésének meggyors´ıtására. A nyesés a 4.3 tulajdonság egy következményét használja ki. A támogatottság meghatározásánál kihagyhatjuk azokat a halmazokat, amelyeknek van olyan `-elem˝ u valódi részhalmazuk, amelyek támogatottsága egyenl˝o egy (`-1)-elem˝ u részhalmazukéval. 4.3. tulajdons´ ag. Legyen X ⊂Y ⊆I. Ha supp(X)=supp(Y ), akkor supp(X ∪Z)=supp(Y ∪Z) teljes¨ ul minden Z ⊆ I-re. Ez az a´ll´ıtás minden Z ⊆ I elemhalmazra igaz, de nek¨ unk elég lesz csak a Z ⊆ I\Y halmazokra koncentrálnunk. Az equisupport nyesés és a zárt elemhalmazok közötti o¨sszef¨ uggés egyértelm˝ u. Az X elemhalmaz nem zárt, és lezártja Y , amennyiben X ⊂ Y , supp(X) = supp(Y ), továbbá nem létezik olyan elemhalmaz, amelynek Y valódi részhalmaza, és támogatottsága megegyezik Y támogatottságával. Egy X elemhalmaz akkor, és csak akkor lehet egy egzakt (100% bizonyosság´ u) asszociációs szabály feltétel része, ha X nem zárt elemhalmaz. Az X elemhalmaz kulcs minta [15], ha nincs vele egyenl˝o támogatottság´ u valódi részhalmaza. Ha az Y jelöltnek a támogatottsága megegyezik az X-el jelölt prefixe támogatottságával, akkor felesleges az Y -t tartalmazó Y ∪ Z halmazokat mint u ´ j jelölteket el˝oa´ll´ıtani, a 4.3 tulajdonság alapján ezek támogatottsága X ∪ Z részhalmazukból közvetlen¨ ul szám´ıtható [66]. Az alulról ép´ıtkez˝o algoritmusoknál (Apriori, Eclat, Fp-growth, stb.) a prefixek támogatottsága mindig elérhet˝o, ´ıgy a prefix equisupport nyesést (az X az Y prefixe és |X| + + 1 = |Y |) bármikor alkalmazhatjuk. A prefix equisupport nyesés a következ˝oképpen m˝ uködik : miután kiszámoltuk a P elemhalmaz gyerekeinek támogatottságát, a ritka elemek elhagyásakor ellen˝orizz¨ uk, hogy a támogatottságuk egyenl˝o-e a sz¨ ul˝o támogatottságával, azaz supp(P )-vel. Az ezt teljes´ıt˝o elemeket nem kell figyelembe venn¨ unk mint generátorokat a következ˝o jelöltel˝oa´ll´ıtás során. Ezen jelölteket törölj¨ uk és az utolsó elemeiket egy halmazban tároljuk el, amit equisupport halmaznak h´ıvunk és P -hez rendelj¨ uk. Vegy¨ uk észre, hogy az elemhalmazháló prefix bejárásnak köszönhet˝oen a jelölt-el˝oa´ll´ıtás során az X \ Y ≺ z minden z ∈ Z, ahol ≺ az elemhalmaz bejárásánál használt rendezés. Amikor ki´ırjuk a GY gyakori elemhalmazt, vele egy¨ utt ki´ırjuk minden E 0 ⊆ E halmazokkal vett unióját is, ahol E a GY prefixeinek equisuporthalmazainak uniója. 4.4. p´ elda. Legyenek a kételem˝ u, A prefix˝ u gyakori elemhalmazok a k¨ ovetkez˝ ok : {AB, AC, AD} és supp(A) = supp(AB) = supp(AC) = 4 tov´ abb´ a supp(AD) = 3. A t¨ obbi A prefix˝ u jel¨ olt el˝ oa ´ll´ıt´ as´ ahoz egyed¨ ul az AD elemhalmazt kell figyelembe venn¨ unk. Azonban egy


72

jel¨ olt létrehoz´ as´ ahoz mind az Apriori, az Eclat- és az Fp-growth algoritmusn´ al legal´ abb két elemhalmaz sz¨ ukséges, ´ıgy itt véget is ér az A prefix˝ u halmazok feldolgoz´ asa. Az AD és A elemhalmazok ki´ır´ asakor BC minden részhalmaz´ at is hozz´ ajuk kell venni, ´ıgy vég¨ ul az AD, ABD, ACD, ABCD, valamint az A, AB, AC, ABC halmazok ker¨ ulnek ki´ır´ asra ; az el˝ obbiek t´ amogatotts´ aga 3, ut´ obbiaké 4 lesz. Ha az adatbázis csak zárt elemhalmazokat tartalmaz, akkor nem tudjuk ezt a nyesést alkalmazni, a támogatottságok egyenl˝oségének vizsgálata viszont lelass´ıtja az algoritmust. A tapasztalat azonban azt mutatja, hogy az ellen˝orzés gyors (például az Apriori algoritmusnál nem kell u ´ jra bejárni a szófát), és nem okoz cache miss-t. A kevés nemzárt elemhalmazt tartalmazó adatbázisoknál elenyész˝o a futásiid˝o növekedése. Az equisupport nyesés ezért biztonságos gyors´ıtási tr¨ ukknek tekinthet˝o. A fenti le´ırásban nem használtuk ki az Apriori algoritmus sajátosságait, csak azt, hogy az algoritmus alulról ép´ıtkez˝o és az elemhalmaz bejárás során definiálva van egy rendezés és ´ıgy a prefix is. A továbbiakban jobban a részletekbe mélyed¨ unk és megnézz¨ uk, hogy mit kell tenn¨ unk az Apriori algoritmusban, ha a prefix equisupport nyesést k´ıvánjuk alkalmazni. Az Apriori algoritmus szófás megközel´ıtése esetén minden cs´ ucshoz egy listát kell hozzávenn¨ unk, mely az equisupport halmaz elemeit tartalmazza. A ritkának bizonyuló jelöltek eltávol´ıtásakor ellen˝orizz¨ uk, hogy a levél támogatottsága megegyezik-e prefixének támogatottságával. Ha igen, a levelet törölhetj¨ uk a szófából, és az éle c´ımkéjét hozzá´ırjuk a sz¨ ul˝o equisupport halmazához. Minden i elem egy equisupport halmazban tekinthet˝o egy i c´ımkéj˝ u hurokélnek. A hurokéleket nem kell figyelembe venni a támogatottság meghatározásakor, de a jelölt-el˝oa´ll´ıtásnál igen. 4.5. p´ elda. Legyenek AB, AC, BC, BD a gyakori p´ arok. supp(AB) 6= supp(A) 6= supp(AC) és supp(B) = supp(BC) = supp(BD). A 4.8 a ´bra a sz´ ofa ritka jel¨ oltek elt´ avol´ıt´ asa ut´ ani a ´llapot´ at mutatja. Vegy¨ uk észre, hogy ha a hurokéleket figyelmen k´ıv¨ ul hagytuk volna a jel¨ oltgener´ al´ as sor´ an, akkor az ABC elemhalmazt nem a ´ll´ıtottuk volna el˝ o mint jel¨ olt, holott minden részhalmaza gyakori. A C

B B

C,D

4.8. a´bra. Példa : equisupport levelek eltávol´ıtása Ez a példa az equisupport nyesés és a zsákutcanyesés közti o¨sszef¨ uggésre is felh´ıvja a figyelmet. Láttuk, hogy a B csomópont nem vezet 2 mélység˝ u levélbe, ´ıgy a zsákutcanyesés törölte ´ volna ezt a cs´ ucsot, és nem lett volna jelölt az ABC elemhalmaz. Ujra kell értelmezn¨ unk a csomópontok mélységét a zsákutcanyesésnél azért, hogy ne töröljön olyan leveleket, amikre sz¨ ukség lehet a jelölt-el˝oa´ll´ıtás során. Az X elemhalmaz támogatottsága megegyezik az X olyan b˝ov´ıtésének támogatottságával, ahol a hozzáadott elem az X valamely prefixéhez tartozó equisupport halmaz egy eleme. Így amikor figyelembe vessz¨ uk az X csomópont mélységét a zsákutcanyesés során, hozzá kell adnunk X aktuális mélységéhez a gyökérb˝ol az X-be vezet˝o


73

pontok equisupport halmazainak o¨sszméretét. Például a 4.8 a´brán látható szófán a B mélysége 1 helyett 3. A szófa hatékony megvalós´ıtásának részleteit és további gyors´ıtási o¨tleteket a [22, 25, 58] ´ırásokban találhatunk. Egy olyan programcsomag, amely szófa alap´ u Apriori implementációt tartalmaz (továbbá hatékony Eclat és Fp-growth implementációt) és kutatási célokra szabadon letölthet˝o a http ://www.cs.bme.hu/~bodon/en/fim env oldalról.

4.2.8. Borgelt-f´ ele t´ amogatotts´ ag-meghat´ aroz´ as Ha a tranzakciókat szófában vagy Patr´ıcia-fában tároljuk, akkor egy másik technikát is használhatunk a támogatottságok meghatározására [24, 25]. Ezt a módszert alkalmazza Christian Borgelt a világh´ır˝ u Apriori implementációja utolsó változataiban. Az a megfigyelés a´ll az o¨tlet mögött, hogy két tranzakció a közös prefixig ugyanazt a programfutást eredményezi a támogatottság meghatározásakor (ugyanazt a szófarészt járjuk be). Ha szófában tároljuk a tranzakciókat, akkor rendelkezésre a´ll minden sz¨ ukséges információ a közös prefixekr˝ol. Megoldható, hogy ugyanazokat a prefixeket csak egyszer dolgozzuk fel, és ne annyiszor, ahányszor el˝ofordulnak. A tranzakciófába minden csomóponthoz egy számlálót rendel¨ unk. Az I elemhalmaz számlálója azoknak a tranzakcióknak a számát tárolja, amelyek prefixe I. Ebb˝ol a szempontból ez a megoldás eltér a bemenet tárolásánál bemutatott (lásd 4.2.5-es rész) szófa alap´ u megoldástól (és inkább egy olyan FP-fára hasonl´ıt, amelyb˝ol elhagytuk a keresztéleket és a fejléc táblát, lásd 82 oldal). A tranzakció szófánál és a jelölt szófánál használt rendezésnek meg kell egyeznie. Ez hátrány, mivel az egyes szófákhoz más-más rendezés lenne optimális. Sajnos a [24]-ben nincsen részletesen kidolgozva az algoritmus, de vélhet˝oen a következ˝oképp m˝ uködik : Párhuzamosan bejárjuk a jelölt- és a tranzakció szófát duplán rekurz´ıv módon. Két mutatót használunk, melyek kezdetben az egyes gyökerekre mutatnak. Ezután végigmegy¨ unk mindkét cs´ ucs élein. Ha a tranzakciószófa aktuális c´ımkéje kisebb vagy egyenl˝o a másik c´ımkénél, akkor rekurz´ıvan továbblép¨ unk a tranzakciószófában a gyerekcsomópontra (az szófa aktuális csomópontmutatója nem változik). Amennyiben a két c´ımke egyenl˝o, a rekurziót azokkal a gyerekekkel folytatjuk, amelyekre a mutatók a´ltal mutatott élek mutatnak. A 74 oldalon található pszeudó-kód a Borgelt-féle támogatottság-meghatározás egy tovább optimalizált változatát adja meg. A fenti megoldásnak hátránya, hogy sok olyan utat jár be a jelölt szófában, amelyet az eredeti támogatottság meghatározó módszer nem tenne, mert nem vezet levélbe. A módszer nem veszi figyelembe, hogy a tranzakciónak csak egy részét kell kiértékeln¨ unk. Megoldhatjuk a problémát, ha hozzárendel¨ unk egy számlálót a tranzakció szófa minden pontjához. A számláló adja meg a pontból kiinduló leghosszabb u ´ t hosszát. A támogatottság meghatározása során nem vessz¨ uk figyelembe azokat a csomópontokat, melyek számlálója kisebb, mint ` − 1, ahol ` azon lépések számát adja, amelyeket meg kell még tenni a jelölt szófa aktuális pontjából, hogy levélbe jussunk. Az algoritmus gyors´ıtható, ha a tranzakció sz˝ urésének o¨tletét (lásd 4.2.6-ös rész) is alkalmazzuk. További részletek tudhatunk meg a [24] tanulmányból.


74

Algorithm 2 BORGELT SUPPCOUNT Require: nc : a szófa aktuális csomópontja, nt : a tranzakciófa aktuális csomópontja, ` : az nc -b˝ol levélbe vezet˝o u ´ t hossza, i : az nc legkisebb olyan élének indexe, amely c´ımkéje nagyobb, mint az nt -be vezet˝o él c´ımkéje if ` = 0 then nc .számláló ← nc .számláló + nt .számláló else for j = 0 to nt .élszám − 1 do while i < nc .élszám AND nc .él[i].c´ımke < nt .él[j].c´ımke do i ← i+1 end while if i < nc .élszám AND nc .él[i].c´ımke ≥ nt .él[j].c´ımke then BORGELT SUPPCOUNT(nc , nt .él[j].gyermek, `, i) if nc .él[i].c´ımke = nt .él[j].c´ımke then BORGELT SUPPCOUNT(nc .él[i].gyermek, nt .él[j].gyermek, ` − 1, 0) i ← i+1 end if else break end if end for end if

4.2.9. Fut´ asi id˝ o´ es mem´ oriaig´ eny A GYEK feladat megadásakor elmondtuk, hogy már az eredmény ki´ırása – ami a futási id˝onek a része – az |I|-ben exponenciális lehet. A memóriaigényr˝ol is hasonló mondható el. Az (` + 1)-elem˝ ukség¨ unk van az o¨sszes `-elem˝ u jelöltre, amelyek száma u jelöltek el˝oa´ll´ıtásához sz¨ |I| akár |I|/2 is lehet. Ezek a fels˝o korlátok élesek is, hiszen min supp = 0-nál minden elemhalmaz gyakori. Az algoritmus ind´ıtása el˝ott tehát nem sokat tudunk mondani a futási id˝or˝ol. A futás során, azonban egyre több információt gy˝ ujt¨ unk, ´ıgy felmer¨ ul a kérdés, hogy ezt fel tudjuk-e használni az algoritmus maradék futási idejének jóslására. Például, ha a gyakori elemek száma négy, akkor tudjuk, hogy a legnagyobb gyakori elemhalmaz mérete legfeljebb négy (azaz még legfeljebb háromszor olvassuk végig az adatbázist), az o¨sszes jelölt maximális száma pedig 42 + 43 + + 44 = 11. A következ˝okben megvizsgáljuk, hogy mit tudunk elmondani a jelöltek számáról és a maximális jelöltek méretér˝ol, ha adottak az `-elem˝ u gyakori elemhalmazok (GY ` ). A következ˝o rész fontos fogalma a kanonikus reprezentáció lesz. 4.6. lemma. Adott n és ` pozit´ıv egészek esetében a k¨ ovetkez˝ o fel´ır´ as egyértelm˝ u: mr m`−1 m` , + · · ·+ + n= r `−1 ` ahol r ≥ 1, m` > m`−1 > · · · > mr és mj ≥ j minden j = r, r + 1, . . . , ` sz´ amra.


75

Ezt a reprezentációt h´ıvják `-kanonikus reprezent´ aci´ onak . Meghatároz´ u: asa nagyon egyszer˝ +1 `−1 m` -nek ki kell elég´ıtenie a m`` ≤ n < m``+1 feltételt, m`−1 -nek a m`−1 ≤ n − m`` < m`−1 `−1 `−1 feltételt, és ´ıgy tovább, am´ıg n − m`` − m`−1 − · · · − mrr nulla nem lesz. Legyen I = {i1 , i2 , . . . , im } elemek halmaza és GY` egy olyan I feletti halmazcsalád1 , amelynek minden eleme `-elem˝ u. Az `-nél nagyobb méret˝ u I ⊆ I halmaz fedi a GY` -et, ha I minden èlem˝ u részhalmaza eleme GY` -nek. Az o¨sszes lehetséges (`+p)-méret˝ u GY` -et fed˝o halmazokból alkotott halmazcsaládot J`+p (GY` )-lel jelölj¨ uk. Nem véletlen, hogy ezt a halmazt ugyan´ ugy jelölt¨ uk, mint az Apriori algoritmus jelöltjeit, ugyanis az (`+p)-méret˝ u jelöltek ezen halmazcsaládnak az elemei, és ha az algoritmus során minden jelölt gyakori, akkor az (` + p)-méret˝ u jelöltek halmaza megegyezik J`+p (GY` )-lel. A következ˝o tétel megadja, hogy adott GY` esetén legfeljebb mennyi lehet a J`+p (GY` ) elemeinek száma. 4.7. t´ etel. Ha

mr m`−1 m` +· · ·+ + |GY` | = r `−1 `

`-kanonikus reprezent´ aci´ o, akkor

ms m`−1 m` , + · · ·+ + |J`+p (GY` )| ≤ s+p `−1+p `+p

ahol s a legkisebb olyan egész, amelyre ms < s + p. Ha nincs ilyen egész sz´ am, akkor s = r − 1. A fenti tétel a Kruskal–Katona tétel következménye, ezért a tételben szerepl˝o fels˝o korlátot a uk. továbbiakban KK``+p (|GY` |)-el jelölj¨ 4.8. t´ etel. A 4.7. tételben szerepl˝ o fels˝ o korl´ at éles, azaz adott n, `, p sz´ amokhoz mindig létezik `+p GY` , amelyre |GY` | = n, és |J`+p (GY` )| = KK` (|GY` |). A kanonikus reprezentáció seg´ıtségével egyszer˝ u éles fels˝o becslést tudunk adni a legnagyobb jelölt méretére (jelölésben maxsize(GY` )) is. Tudjuk, hogy |GY` | < m``+1 , ami azt jelenti, hogy nem létezhet olyan jelölt, amelynek mérete nagyobb m` -nél. 4.9. k¨ ovetkezm´ eny. Amennyiben a |GY` | sz´ amnak az `-kanonikus reprezent´ aci´ oj´ aban szerepl˝ o els˝ o tag m`` , akkor maxsize(GY` ) ≤ m` .

Az m` számot a továbbiakban µ` (|GY` |)-el jelölj¨ uk. Ez az érték azt is megmondja, hogy mekkora jelöltméretnél válik nullává a fels˝o korlát, azaz : 4.10. k¨ ovetkezm´ eny. µ` (|GY` |) = ` + min{p|KK``+p (|GY` |) = 0} − 1 A maradék futási id˝o jóslására a következ˝o a´ll´ıtás ny´ ujt seg´ıtséget. 4.11. k¨ ovetkezm´ eny. Az o ¨sszes lehetséges `-nél nagyobb méret˝ u jel¨ olt sz´ ama legfeljebb KKò¨sszes (|GY` |) 1

=

µ` (|GY` |)

X p=1

KK``+p (|GY` |).

A H-t az I feletti halmazcsal´ adnak nevezz¨ uk, amennyiben H ⊆ 2I .

4. FEJEZET. GYAKORI ELEMHALMAZOK A fenti korlátok szépek és egyszer˝ uek, mivel csak két paramétert használnak : az ` aktuális méretet és az `-elem˝ u gyakori elemhalmazok számát (|GY` |). Ennél jóval többet tudunk. Nem csak a gyakori elemhalmazok számát ismerj¨ uk, hanem már pontosan meghatároztuk o˝ket magukat is ! Az u ´ j információ seg´ıtségével számos esetben jobb fels˝o korlátot adhatunk. Például, ha a GY` -ben csak páronként diszjunkt elemhalmazok vannak, akkor nem a´ll´ıtunk el˝o jelölteket. A 4.7. tételben szerepl˝o fels˝o korlát azonban jóval nagyobb lehet nullánál. A következ˝okben bemutatjuk, hogyan lehet a meglév˝o fels˝o korlátot az ` méret˝ u gyakori elemhalmazok strukt´ ur´ aj´ ara rekurz´ıvan alkalmazni. Ehhez feltessz¨ uk, hogy egy teljes rendezést tudunk definiálni az I elemein, ami alapján tetsz˝oleges elemhalmaznak meg tudjuk határozni a legkisebb elemét. Vezess¨ uk be a következ˝o két jelölést :

76 Angol kutat´ ok a ´ll´ıtj´ ak, apuk´ addal ” val´ o kapcsolatod befoly´ asolja, milyen férfiakat tal´ alsz vonz´ onak. Szerint¨ uk az egészséges apa-l´ anya kapcsolatot a ´pol´ o l´ anyok ink´ abb az u ´gynevezett alfa-h´ım t´ıpus´ u férfiakhoz vonz´ odnak : a veszélyes kinézet˝ u, széles a ´ll´ u, d´ us szem¨ old¨ ok˝ u t´ıpusokhoz, m´ıg azok a l´ anyok, akiknek kevésbé pozit´ıv a kapcsolatuk a csal´ adfenntart´ oval, azok ink´ abb a finom von´ as´ u, m´ ar szinte n˝ oies kinézet˝ u férfiakat részes´ıtik el˝ onyben.” Forrás : http://shape.proweb.hu/main.php? rovat=6&cikk=507

GYì = {I − {i}|I ∈ GY` , i = min I}, A GYì halmazt u ´ gy kapjuk GY` -b˝ol, hogy vessz¨ uk azon halmazokat, amelyek legkisebb eleme i, majd törölj¨ uk ezekb˝ol az i elemet. Ezek után definiálhatjuk a következ˝o rekurz´ıv f¨ uggvényt tetsz˝oleges p > 0-ra : ( |GY` | , ha ` = 1 ∗ p+1 KK`,p (GY` ) = P `+p i ∗ min{KK` (|GY` |), i∈I KK`−1,p (GY` )} , ha ` > 1. ∗ A defin´ıcióból következi, hogy KK`,p (GY` ) ≤ KK``+p (|GY` |), továbbá ∗ (GY` ). 4.12. t´ etel. |J`+p (GY` )| ≤ KK`,p

Bizony´ıt´ as: A bizony´ıtás teljes indukción alapul, az ` = 1 eset triviális. Tulajdonképpen csak azt kell belátni, hogy X ∗ |J`+p (GY` )| ≤ KK`−1,p (GYì ) i∈I

Az egyszer˝ uség kedvéért vezess¨ uk be a következ˝o jel¨ Polést : H ∪ i = {I ∪ {i}|I ∈ H}, ahol H egy I feletti halmazcsalád. Vegy¨ uk észre, hogy GY` = i∈I GYì ∪ i és GYì ∩ GY`j = ∅ minden i 6= j elempárra. Azaz a GY` halmazcsalád egy part´ıcióját képezt¨ uk. Amennyiben I ∈ J`+p (GY` ), és I-nek legkisebb eleme i, akkor I \ {i} ∈ J`−1+p (GYì ), hiszen I \ {i} minden (` − 1)-elem˝ u részhalmaza GYì -beli. Ebb˝ol következik, hogy [ J`+p (GY` ) ⊆ J`−1+p (GYì ) ∪ i. i∈I

Abból, hogy az GYì halmazcsaládok páronként diszjunktak következik, hogy J`−1+p (GYì ) ∪ i


77

is páronként diszjunkt halmazcsaládok. Ebb˝ol következik az a´ll´ıtás, hiszen : [ |J`+p (GY` )| ≤ | J`−1+p (GYì ) ∪ i| i∈I

=

X i∈I

=

X i∈I

≤

X

|J`−1+p (GYì ) ∪ i| |J`−1+p (GYì )| ∗ KK`−1,p (GYì ),

i∈I

ahol az utolsó egyenl˝otlenségnél az indukciós feltevést használtuk.

A páronként diszjunkt halmazok esete jó példa arra, hogy a minimum kifejezésben szerepl˝o második tag kisebb lehet az els˝onél. El˝ofordulhat azonban az ellenkez˝o eset is. Például legyen GY2 = {AB, AC}. Könny˝ u ellen˝orizni, hogy KK23 (|GY2 |) = 0, ugyanakkor a második tagban szerepl˝o o¨sszeg 1-et ad. Nem tudhatjuk, hogy melyik érték a kisebb, ´ıgy jogos a két érték minimumát venni. Jav´ıthatjuk a legnagyobb jelölt méretére, illetve az o¨sszes jelölt számára vonatkozó fels˝o ∗ korlátokon is. Legyen µ∗` (GY` ) = ` + min{p|KK`+p (GY` ) = 0} − 1 és µ∗` (GY` )

KKo¨∗sszes (GY` ) =

X

∗ (GY` ). KK`+p

p=1

4.13. k¨ ovetkezm´ eny. maxsize(GY` ) ≤ µ∗` (GY` ) ≤ µ` (|GY` |). 4.14. k¨ ovetkezm´ eny. Az o ¨sszes lehetséges `-nél nagyobb méret˝ u jel¨ olt sz´ ama legfeljebb KKö∗sszes (GY` ) lehet, és KKö∗sszes (GY` ) ≤ KK`összes (|GY` |). ∗ A KK ∗ érték f¨ ugg a rendezést˝ol. Például a KK2,1 ({AB, AC}) értéke 1, amennyiben a rendezés szerinti legkisebb elem A, és 0 bármely más esetben. Elméletileg meghatározhatjuk az o¨sszes rendezés szerinti fels˝o korlátot, és kiválaszthatjuk azt, amelyik a legkisebb értéket adja. Ez a megoldás azonban t´ ul sok id˝obe telne. A szófa a´ltal használt rendezés szerinti fels˝o korlátot viszonylag könnyen meghatározhatjuk. Ehhez azt kell látnunk, hogy a gyökér i c´ımkéj˝ u i éléhez tartozó részfa levelei reprezentálják a GY` elemeit. A szófa egyetlen bejárásával egy I ∗ ) és (GY`−d egyszer˝ u rekurz´ıv módszer seg´ıtségével minden cs´ ucshoz kiszám´ıthatjuk a KK `−d,p `−d+p I I ucshoz ucs mélységét jelöli, GY`−d pedig az adott cs´ KK`−d (|GY`−d |) értékeket, ahol d a cs´ tartozó részfa a´ltal reprezentált elemhalmazokat. A gyökérhez kiszám´ıtott két érték adja meg a KK és KK ∗ korlátokat. Ha a maradék futási id˝o becslésére k´ıvánjuk használni a fenti fels˝o korlátot, akkor tudnunk kell, hogy a jelöltek támogatottságának meghatározása f¨ ugg az Apriori algoritmusban felhasznált adatstrukt´ urától. Szófa esetében például egy jelölt el˝ofordulásának meghatározásához el kell jutnunk a jelöltet reprezentáló levélhez, ami a jelölt méretével arányos lépésszám´ u ∗ m˝ uveletet igényel. A maradék futási id˝o pontosabb fels˝o becsléséhez a KK `+p (GY` ) értékeket s´ ulyozni kell (` + p)-vel.


78

4.3. Az Eclat algoritmus Az Eclat az u ¨ res mintából indulva egy rekurz´ıv, mélységi jelleg˝ u bejárást valós´ıt meg. A rekurzió mélysége legfeljebb eggyel több, mint a legnagyobb gyakori elemhalmaz mérete. Az Apriori-val szemben mindig egyetlen jelöltet a´ll´ıt el˝o, majd ennek azonnal meghatározza a támogatottságát. Az (` + 1)-elem˝ u, P prefix˝ u jelölteket, ahol |P | = ` − 1 az `-elem˝ u, P prefix˝ u gyakori elemhalmazokból a´ll´ıtja el˝o egyszer˝ u páronkénti unióképzéssel. Az algoritmus központi fogalma az u ´ n. TID-halmaz. Egy elemhalmaz TID-halmaz´ anak (Transaction IDentifier) elemei azon bemeneti sorozatok azonos´ıtói (sorszámai), amelyek tartalmazzák az adott elemhalmazt. Más szóval egy TID-halmaz a vertikális adatbázis egy megfelel˝o sora. Például hAD, AC, ABCD, B, AD, ABD, Di bemenet esetén az {A, C} elemhalmaz TID-halmaza {1,2}, amennyiben egy tranzakció azonos´ıtója megegyezik a bemeneti sorozatban elfoglalt helyével, és a helyek számozását nullától kezdj¨ uk. A TID-halmaz két fontos tulajdonsággal b´ır : I. Az I elemhalmaz TID-halmazának mérete megadja az I támogatottságát. II. Egy jelölt TID-halmazát megkaphatjuk a generátorainak TID-halmazaiból egy egyszer˝ u metszetképzéssel. Az Eclat pszeudokódja a 78 oldalol található. Algorithm 3 Eclat Require: T : tranzakciók sorozata, min supp : támogatottsági k¨ uszöb, támogatottság meghatározás( T , J1 ) ; GY1 ← gyakoriak kiválogatása( J1 , min supp ) ; for i ← 1 to |T | do for all j ∈ ti ∩ GY1 do j.T ID ← j.T ID ∪ {i} end for end for return GY1 ∪ Eclat-seg´ ed(∅, GY1 , min supp) El˝oször meghatározzuk a gyakori elemeket, majd felép´ıtj¨ uk a gyakori elemek TID-halmazait. A kés˝obbiekben nem használjuk a bemenetet, csak a TID-halmazokat. Az algoritmus lényege a Eclat-seg´ ed rekurziós eljárás. Jelölj¨ uk a P prefix˝ u, P -nél eggyel nagyobb méret˝ u gyakori P ∅ elemhalmazokból alkotott halmazcsaládot GY -vel. Nyilvánvaló, hogy GY = GY1 . Az Eclat jelölt-el˝oa´ll´ıtása megegyezik az Apriori jelölt-el˝oa´ll´ıtásával, azzal a k¨ ulönbséggel, hogy nem ellen˝orizz¨ uk az unióképzéssel kapott halmaznak minden részhalmazára, hogy gyakori-e (a mélységi bejárás miatt ez az információ nem is a´ll rendelkezés¨ unkre). Látható, hogy az Eclat abban is k¨ ulönbözik az Apriori-tól, hogy egy jelölt el˝oa´ll´ıtása után azonnal meghatározza a támogatottságát, miel˝ott u ´ jabb jelöltet a´ll´ıtana el˝o. Nézz¨ unk egy példát a keresési tér bejárására. 4.15. p´ elda. Legyen T = hACDE, ACG, AF GM, DM i és min supp = 2. Els˝ o lépésben meghat´ arozzuk a gyakori elemeket : A, C, D, G, M , ami nem m´ as, mint GY ∅ . Ezut´ an el˝ oa ´ll´ıtjuk és


79

Algorithm 4 Eclat-seg´ ed Require: P : prefix elemhalmaz. GY P : P prefix˝ u, P -nél eggyel nagyobb méret˝ u gyakori elemhalmazokból alkotott halmazcsalád, min supp : támogatottsági k¨ uszöb, for all gy ∈ GY P do for all gy 0 ∈ GY P , gy ≺ gy 0 do j ← gy ∪ gy 0 j.T ID ← gy.T ID ∩ gy 0.T ID if |j.T ID| ≥ min supp then GY gy ← GY gy ∪ {j} end if end for if |GY gy | ≥ 2 then GY ← GY ∪ GY gy ∪ Eclat-seg´ ed(gy, GY gy , min supp) else GY ← GY ∪ GY gy end if end for return GY azonnal meg is hat´ arozzuk az (A, C), (A, D), (A, G), (A, M ) p´ arok uni´ oj´ at. Ezek k¨ oz¨ ul csak az AC, AG halmazok gyakoriak. A k¨ ovetkez˝ o rekurzi´ os lépésben ennek a két halmaznak vessz¨ uk az uni´ oj´ at, a ´ll´ıtjuk el˝ o a TID-halmaz´ at, amely alapj´ an kider¨ ul, hogy az ACG ritka, és a rekurzi´ o ezen a ´ga véget ér. Ezut´ an a C elemnek vessz¨ uk az uni´ oj´ at a sorban ut´ ana k¨ ovetkez˝ o elemekkel egyesével és ´ıgy tov´ abb. Látnunk kell, hogy az Eclat legalább annyi jelöltet a´ll´ıt el˝o, mint az Apriori. A mélységi bejárás miatt ugyanis egy jelölt el˝oa´ll´ıtásánál nem a´ll rendelkezés¨ unkre az o¨sszes részhalmaz. Az el˝oz˝o példa esetében például az {A,C,G} támogatottságát hamarabb vizsgálja, mint a {C,G} halmazét, holott ez utóbbi akár ritka is lehet. Ebben a tekintetben tehát az Eclat rosszabb az Apriori-nál, ugyanis több lesz a ritka jelölt. Az Eclat igazi ereje a jelöltek támogatottságának meghatározásában van. A jelöltek TIDhalmazainak el˝oa´ll´ıtása egy rendk´ıv¨ ul egyszer˝ u és nagyon gyors m˝ uvelet lesz. Emellett ahogy haladunk egyre mélyebbre a mélységi bejárás során, u ´ gy csökken a TID-halmazok mérete, és ezzel a támogatottság meghatározásának ideje is. Ezzel szemben az Apriori-nál ahogy haladunk az egyre nagyobb méret˝ u jelöltek felé, u ´ gy n˝o a szófa mélysége, és lesz egyre lassabb minden egyes jelölt támogatottságának meghatározása (persze a zsákutca nyesés seg´ıt ezen egy kicsit). A keresési tér bejárása f¨ ugg a prefix defin´ıciójától, amit az elemeken definiált rendezés határoz meg. Melyek lesznek azok a jelöltek, amelyek az Apriori-ban nem lennének jelöltek (tehát biztosan ritkák), illetve várhatóan melyik az a rendezés, amely a legkevesebb ilyen tulajdonság´ u halmazt adja ? Ha egy elemhalmaz jelölt az Eclat algoritmusban, de az Apriori-ban nem, akkor van olyan részhalmaza, amely ritka. Amennyiben feltételezz¨ uk, hogy az elemek f¨ uggetlenek, akkor azon részhalmaz el˝ofordulásának lesz legkisebb a valósz´ın˝ usége (és ezzel


80

egy¨ utt az esélye annak, hogy ritka), amely a leggyakoribb elemet nem tartalmazza. A jelölt prefixe generátor, tehát gyakori, ´ıgy akkor lesz a legnagyobb esélye annak, hogy minden részhalmaz gyakori, ha a prefix a leggyakoribb elemet nem tartalmazza. Az Eclat algoritmusnál a legkevesebb ritka jelöltet és ´ıgy a legjobb futási id˝ot tehát a gyakoriság szerint növekv˝o rendezést˝ol várhatjuk. 4.16. p´ elda. Ennek a gondolatmenetnek az illusztr´ al´ as´ ara nézz¨ uk a k¨ ovetkez˝ o péld´ at. Legyenek gyakori halmazok a k¨ ovetkez˝ ok : A, B, C, D, AB, AC, BC, AD, ABC, tov´ abb´ a supp(D) ≺ ≺ supp(C) ≺ supp(B) ≺ supp(A). Amennyiben az Eclat algoritmus a gyakoris´ ag szerint cs¨ okken˝ o sorrendet haszn´ alja, akkor az el˝ oa ´ll´ıt´ as sorrendjében a k¨ ovetkez˝ o halmazok lesznek jel¨ oltek : A, B, C, D, AB, AC, AD, ABC, ABD, ACD, BC, BD, CD. Ugyanez gyakoris´ ag szerint n¨ ovekv˝ o sorrendnél D, C, B, A, DC, DB, DA, CB, CA, CBA, BA. Az ut´ obbi esetben teh´ at négy ritka jel¨ olt helyett (ABD, ACD, BD, CD) csak kett˝ o lesz (CD, BD). Megjegyezz¨ uk, hogy ez a két elemhalmaz az Apriori esetében is jel¨ olt lesz. A gyakoris´ ag szerint cs¨ okken˝ o esetben egyszer a ´ll´ıtunk el˝ o olyan h´ aromelem˝ u jel¨ oltet, amelynek van olyan kételem˝ u részhalmaza, amelyet nem vizsg´ altunk. Ez a jel¨ olt a CBA és a nem megvizsg´ alt részhalmaz a BA. Mivel a részhalmaz éppen a leggyakoribb elemeket t´ arolja, ezért van nagy esélye annak, hogy gyakori (f˝ oleg ha hozz´ avessz¨ uk, hogy a jel¨ olt két gener´ atora, CB és CA is gyakori). Jav´ıthatunk az algoritmus hatékonyságán, ha nem a jelöltek TID-listáit tároljuk, hanem a jelölt és prefixe TID-listájának k¨ ulönbségét. A prefix támogatottságából és a TID listák k¨ ulönbségéb˝ol a támogatottság egyértelm˝ uen megadható. A k¨ ulönbségi listák akár nagyobbak is lehetnek az eredeti TID-listáknál (például, ha a I támogatottsága kicsi, de a prefixének támogatottsága nagy), ´ıgy a legjobb megoldást a két technika o¨tvözése adhatja (például 4-nél kisebb elemszámnál TID lista, utána k¨ ulönbségi listák) [191]. A k¨ ulönbségi listát használó algoritmusok nagy fölénnyel verik a többi algoritmust, amennyiben a bemenet s˝ ur˝ u, és nagy méret˝ u gyakori minták is vannak.

4.3.1. kdci 4.3.2. lcm

4.4. Az FP-growth algoritmus Az FP-growth algoritmus2 [74] egy mélységi jelleg˝ u, rekurz´ıv algoritmus, a keresési tér bejárása tekintetében megegyezik az Eclat-tal. A támogatottságok meghatározását az egyelem˝ u gyakori halmazok meghatározásával, majd a bemenet sz˝ urésével és vet´ıtésével valós´ıtja meg rekurz´ıv módon. A bemenet sz˝ urése azt jelenti, hogy az egyes tranzakciókból törölj¨ uk a benn¨ uk el˝oforduló ritka elemeket. A T elemhalmaz P elemhalmazra vet´ıtését (jelölésben T |P ) pedig u ´ gy kapjuk, hogy vessz¨ uk a P -t tartalmazó tranzakciókat, majd törölj¨ uk bel˝ol¨ uk a P t. Például hACD, BCE, ABCE, BE, ABCEi|B = hCE, ACE, E, ACEi. Az algoritmus pszeudokódja a következ˝okben olvasható. 2

Az FP a Frequent Pattern r¨ ovid´ıtése, ami miatt az algoritmust mintan¨ ovel˝ o algoritmusnak is h´ıvj´ ak. Ez az elnevezés azonban félrevezet˝ o, ugyanis szinte az o ¨sszes GYEK algoritmus mintan¨ ovel˝ o abban az értelemben, hogy egy u ´j jel¨ olt a gener´ atorainak egyelem˝ u b˝ ov´ıtése, vagy m´ as sz´ oval n¨ ovelése. Az FP-growth saj´ ats´ aga nem a jel¨ oltek el˝ oa ´ll´ıt´ asa, hanem a jel¨ oltek t´ amogatotts´ ag-meghat´ aroz´ as´ anak m´ odja.


81

Algorithm 5 FP-growth Require: T : tranzakciók sorozata, min supp : támogatottsági k¨ uszöb, FP-growth-seg´ ed(T , min supp, ∅) A segédeljárás harmadik paramétere (P ) egy prefix elemhalmaz, az els˝o paraméter pedig az eredeti bemenet P -re vet´ıtése. Az eredeti bemenet ∅-ra vet´ıtése megegyezik o¨nmagával. Algorithm 6 FP-growth-seg´ ed Require: T : vet´ıtett bemenet, min supp : támogatottsági k¨ uszöb, P : prefix elemhalmaz, támogatottság meghatározás( T , J1 ) ; GY1 ← gyakoriak kiválogatása( J1 , min supp ) ; ˝ r´ T ∗ ← szu es(T, GY1 ) for all gy ∈ GY1 do es(T ∗ , gy) T ∗ |gy ← vet´ıt´ ed(T ∗|gy,min supp, P ∪ {gy}) GY ← GY ∪ {P ∪ {gy}} FP-growth-seg´ ∗ ∗ ¨ rl´ T ← to es(T , gy) end for return GY Egy rekurziós lépés három f˝o lépésb˝ol a´ll. El˝oször meghatározzuk azon elemek támogatottságát, amelyek el˝ofordulnak valamelyik tranzakcióban. Ezekb˝ol kiválasztjuk a gyakoriakat. Ezután minden gy gyakori elemet egyesével vesz¨ unk. Meghatározzuk a gy-hez tartozó vet´ıtett bemenetet, majd megh´ıvjuk az algoritmust rekurz´ıvan a T |gy bemenetre. Töröln¨ unk kell a gy elemet a T ∗ -beli tranzakciók elemei köz¨ ul annak érdekében, hogy egy jelöltet csak egyszer a´ll´ıtsunk el˝o. A jelöltek el˝oa´ll´ıtásának tekintetében az FP-growth algoritmus a legegyszer˝ ubb. Ha az I elemhalmaz gyakori, akkor a következ˝o rekurziós szinten azon I ∪j halmazok lesznek a jelöltek, ahol j az I-re vet´ıtett bemenetben el˝oforduló elem és I ∪ j nem volt jelölt korábban. Tulajdonképpen az FP-growth a nagy elemszám´ u jelöltek támogatottságának meghatározását visszavezeti három egyszer˝ u m˝ uveletre : egyelem˝ u gyakori elemhalmazok kiválogatása, sz˝ urés és vet´ıtett bemenet el˝oa´ll´ıtása. A sz˝ urés után egyesével vessz¨ uk a gyakori elemeket. Ezt valamilyen rendezés szerint kell tenn¨ unk és ez a rendezés határozza meg, hogy milyen sorban járjuk be a keresési teret, milyen vet´ıtett bemeneteket a´ll´ıtunk el˝o és mely elemhalmazok lesznek a hamis jelöltek. Az Eclat-nál elmondottak itt is élnek ; várhatóan abban az esetben lesz a hamis jelöltek száma minimális, amennyiben a prefixben a legritkább elemek vannak, azaz a 9. sorban gyakoriság szerint növekv˝o sorban vessz¨ uk az elemeket. Az FP-growth algoritmus szerves része az FP-fa, amelyben a sz˝ urt bemenetet tároljuk. Az FP-fa seg´ıtségével könnyen el˝oa´ll´ıthatjuk a vet´ıtett bemeneteket, azokban könnyen meghatározhatjuk az elemek támogatottságát, amib˝ol el˝oa´ll´ıthatjuk a vet´ıtett, majd sz˝ urt bemenetet. Ezt a vet´ıtett és sz˝ urt bemenetet szintén egy FP-fában tároljuk, amelyet vet´ıtett FP-f´ anak h´ıvunk.

4. FEJEZET. GYAKORI ELEMHALMAZOK elem

82

mutató

8 F

F C

C 2

6

A

C

B

B

3

B 1

1

M A

Q

Q 3 M

1 B

2 Q 2

1 M 1

4.9. a´bra. Az hACF M Q, ABCF M , BF , BCQ, ACF M Q, C, F , F i sz˝ urt bemenetet tároló FP-fa. Az FP-fa egy keresztélekkel és egy fejléc táblával kib˝ov´ıtett szófa. Az élek c´ımkéi gyakori elemek. Az egyszer˝ ubb le´ırás kedvéért egy (nemgyökér) cs´ ucs c´ımkéjén a cs´ ucsba mutató él c´ımkéjét értj¨ uk. Minden cs´ ucs egy elemhalmazt reprezentál, amelynek elemei a gyökérb˝ol a cs´ ucsig vezet˝o u ´ t cs´ ucsainak c´ımkéivel egyeznek meg. Minden cs´ ucshoz egy számlálót rendel¨ unk. Ez a számláló adja meg, hogy a cs´ ucs a´ltal reprezentált halmaz mennyi bemeneti (vagy vet´ıtett) elemhalmaznak a prefixe. Az azonos c´ımkéj˝ u cs´ ucsok láncolt listaszer˝ uen o¨ssze vannak kötve keresztirány´ u élekkel. A lánc legels˝o elemére mutat a fejléctáblának az adott eleméhez tartozó mutatója. 4.17. p´ elda. Tegy¨ uk fel, hogy bemenetként a hACDF M Q, ABCF M O, BF O, BCKSQ, ACF M Q, CS, DF J, F HIi sorozat van adva, és min supp = 3. A gyakori elemek : A, B, C, F , M , Q, amelyek t´ amogatotts´ aga rendre 3, 3, 5, 6, 3, 3. Ekkor a sz˝ urt bemenetet (hACF M Q, ABCF M , BF , BCQ, ACF M Q, C, F , F i) reprezent´ al´ o FP-fa, amely gyakoris´ ag szerint cs¨ okken˝ o sorrendet (Q ≺ M ≺ B ≺ A ≺ C ≺ F ) haszn´ al, a 4.9. a ´br´ an l´ athat´ o Egy FP-fát hasonló módon ép´ıt¨ unk fel, mint egy szófát. K¨ ulönbség, hogy egy I elemhalmaz besz´ urásánál nem csak az I-t reprezentáló levélnek a számlálóját növelj¨ uk eggyel, hanem minden olyan cs´ ucsét, amelyet érint¨ unk a besz´ urás során (hiszen ezen cs´ ucsokat reprezentáló halmazok az I prefixei). A keresztirány´ u éleket és a fejléctáblát is egyszer˝ uen megkaphatjuk. Legyen a fejléctábla mutatóinak kezdeti értéke NIL. Amikor besz´ urunk egy u ´ j, i c´ımkéj˝ u cs´ ucsot, akkor két dolgot kell tenn¨ unk. Az u ´ j cs´ ucs keresztél mutatója felveszi a fejléctábla i-hez tartozó bejegyzését, majd ezt a bejegyzést az u ´ j cs´ ucs c´ımére cserélj¨ uk. Ezzel tulajdonképpen olyan láncot kész´ıt¨ unk, amelyben a cs´ ucsok a besz´ urási idej¨ uk szerint csökken˝oen vannak rendezve (az el˝oször besz´ urt elem van leghátul) és a lista a fejléctáblában kezd˝odik. A fejléc mutatókból kiindulva és a keresztéleket követve megkaphatjuk a vet´ıtett bemenetet és meghatározhatjuk a vet´ıtett bemenetben gyakori elemeket. Az adott tranzakciók el˝ofordulása megegyezik a keresztélek a´ltal mutatott pontok számlálójával. Ezek alapján a vet´ıtett bemenetet sz˝ urhetj¨ uk és bel˝ole egy u ´ jabb FP-fát ép´ıthet¨ unk fel. Ezt a fát vet´ıtett FP-fának h´ıvjuk. A


83

következ˝o a´brán az M elemhez tartozó vet´ıtett és sz˝ urt bemenet FP-fáját láthatjuk (amelyet a Q elem feldolgozása után kapunk). elem

mutató

3 F

F C

3

A

C 3 A 3

4.10. a´bra. példa : vet´ıtett FP-fa Az FP-fa mérete – hasonlóan a szófa méretéhez – f¨ ugg az elemeken definiált rendezést˝ol. Az FP-growth algoritmus akkor lesz hatékony, ha a fa elfér a memóriában, ezért fontos lenne azt a rendezést használni, ami várhatóan a legkisebb fát eredményezi. Az Apriori esetében már elmondtuk, hogy az a heurisztika, amely az elemek gyakoriság szerint csökken˝o rendezését használja, a´ltalában kis méret˝ u fát eredményez. Egyszer˝ u lesz a vet´ıtett bemenet el˝oa´ll´ıtása és a sz˝ urt bemenetb˝ol egy elem törlése, amennyiben a legritkább gyakori elemet (gyr ) vessz¨ uk el˝oször. Ez o¨sszhangban a´ll azzal, hogy a pszeudokód 9. sorában az elemeket gyakoriság szerint növekv˝o sorrendben vessz¨ uk. A gy r csak levél c´ımkéje lehet. Mivel a fából törölni fogjuk a gyr c´ımkéj˝ u cs´ ucsokat a rekurziós m˝ uvelet után (13. sor), a következ˝o elem is csak levél c´ımkéje lesz. Nézz¨ uk most meg, hogy amennyiben a sz˝ urt bemenet egy FP-fában van tárolva, akkor hogyan kaphatjuk meg a gyr elemre vett vet´ıtésben az elemek támogatottságát. A fejléctábla gyr eleméhez tartozó mutatóból kiindulva a keresztélek alkotta láncban pontosan azok a cs´ ucsok vannak, amelyek gyr -t tartalmazó bemeneti elemet reprezentálnak. Az egyes elemhalmazok el˝ofordulását a gyr c´ımkéj˝ u cs´ ucsokhoz rendelt számláló adja meg, az elemeiket pedig a gyökérig felsétálva kaphatjuk. A lista utolsó cs´ ucsának feldolgozása után rendelkezés¨ unkre a´llnak a gy r elemhez tartozó vet´ıtett bemenetben valahol el˝oforduló elemek támogatottságai, amely alapján kiválogathatjuk a vet´ıtett bemenetben gyakori elemeket. Ugyanilyen bejárással kaphatjuk meg a vet´ıtett, majd sz˝ urt bemenetet tartalmazó FP-fát. A A nyugalom meg´ ov az UV sugarakt´ ol fejléctáblából kiindulva végigmegy¨ unk a láncolt lista ”Amerikai kutat´ ok szerint a stressz elemein. A cs´ ucs a´ltal reprezentált elemhalmazból és az UV-sug´ arz´ as egy¨ uttesen tudtörölj¨ uk a ritka elemeket, majd a kapott elemhal- nak csak igaz´ an veszélyesek lenni. mazt besz´ urjuk az u ´ j FP-fába. A kis memóriaigény Ez az eredmény azt az ismert tényt érdekében a gyakoriság szerint csökken˝o sorrendet er˝ os´ıti meg, hogy a kr´ onikus stressz használjuk. Ezt a sorrendet a vet´ıtett bemenet lecs¨ okkenti a b˝ or védekez˝ o képességét. alapján a´ll´ıtjuk fel (lévén az u ´ j fa a vet´ıtett és sz˝ urt Ha teh´ at nem idegesked¨ unk, nem kell bemenetet fogja tárolni), ami k¨ ulönbözhet az eredeti féln¨ unk a napsugarakt´ ol.” Forrás : FP-fában alkalmazott rendezést˝ol. http://www.habostorta.hu/hab/ 4.18. p´ elda. Folytassuk az el˝ oz˝ o péld´ at és a ´ll´ıtsuk

tomy/tudomany/200507/a_nyugalom_ megov_az_uvsugaraktol?print=1


84

el˝ o a legritk´ abb gyakori elemhez (Q) tartoz´ o vet´ıtett és sz˝ urt bemenetet. A fejléct´ abla Q eleméhez tartoz´ o mutat´ ob´ ol kiindulva mind¨ ossze két cs´ ucsot l´ atogatunk meg, ami azt jelenti, hogy a vet´ıtett bemenet két k¨ ul¨ onb¨ oz˝ o elemhalmazt tartalmaz : az F CAM et kétszer, a CB-t egyszer. Ez alapj´ an a vet´ıtett bemenetben egyetlen gyakori elem van, C. Ez a rekurzi´ os a ´g nem folytat´ odik, hanem visszatér a QC gyakori elemhalmazzal. Az FPf´ ab´ ol t¨ or¨ olhetj¨ uk a fejléct´ abla Q bejegyzéséhez tartoz´ o mutat´ ob´ ol, keresztir´ any´ u élek seg´ıtségével elérhet˝ o cs´ ucsokat. A k¨ ovetkez˝ o vizsg´ alt elem az M . Az M vet´ıtett bemenetében h´ arom gyakori elem van, és a vet´ıtett sz˝ urt bemenet az F CA elemhalmazt tartalmazza h´ aromszor. Ezt a vet´ıtett, sz˝ urt bemenetet egy egyetlen u ´tb´ ol a ´ll´ o FP-fa fogja reprezent´ alni. A t¨ obbi FP-fa ugyanilyen egyszer˝ uen megkaphat´ o. Hatékonysági szempontból rendk´ıv¨ ul fontos, hogy a rekurziót ne folytassuk, ha a vizsgált FP-fa egyetlen u ´ tból a´ll. A rekurzió helyett képezz¨ uk inkább az u ´ t a´ltal reprezentált elemhalmaz minden részhalmazát. A részhalmaz támogatottságát annak a cs´ ucsnak a számlálója adja meg, amely a legmélyebben van a részhalmazt meghatározó cs´ ucsok között.

4.4.1. Az FP-growth* algoritmus 2003 novemberében megszervezték az els˝o gyakori elemhalmaz-kinyer˝o algoritmusok versenyét [67]. Bárki benevezhetett egy a´ltala kész´ıtett programot. Ezeket központilag tesztelték k¨ ulönböz˝o adatbázisokon, k¨ ulönböz˝o támogatottsági k¨ uszöbökkel. Nem volt olyan implementáció, amely minden esetben a legjobban szerepelt, de ki lehet emelni néhány olyat, amelyek szinte mindig az els˝ok között végeztek. A szervez˝ok vég¨ ul annak adták a f˝od´ıjat (egy sört és egy pelenkát !), aki az FP-growth* algoritmust [69] k¨ uldte be. Az FP-growth* algoritmus az FP-growth módos´ıtása. El˝onye, hogy gyorsabban a´ll´ıtja el˝o a vet´ıtett fát, amiért viszont memóriával fizet. Nézz¨ uk meg, hogy pontosan mi történik egy rekurziós lépésben. El˝oször ellen˝orizz¨ uk, hogy a fa egyetlen u ´ tból a´ll-e. Ha nem, akkor a legritkább elemb˝ol kiindulva el˝oa´ll´ıtjuk a vet´ıtett fákat, és rekurz´ıvan megh´ıvjuk az algoritmust. A vet´ıtett fában els˝o lépésként meg kell határozni a vet´ıtett bemenetben szerepl˝o elemek támogatottságát, második lépésként pedig el˝oa´ll´ıtjuk a vet´ıtett FP-fát. Ez tulajdonképpen az aktuális fa adott elemhez tartozó a´gainak kétszeri bejárását jelenti. Az els˝o bejárást lehet meggyors´ıtani egy segédtömb használatával. Az FP-fa ép´ıtésénél tölts¨ unk fel egy, kezdetben 0 értékeket tartalmazó tömböt is. Amikor besz´ urunk egy t (akár vet´ıtett) tranzakciót az (akár vet´ıtett) FP-fába, növelj¨ uk eggyel a tömb (i, j)-edik celláját, amennyiben az i és j elemei t-nek. A fa felép´ıtése után rendelkezés¨ unkre a´ll egy tömb, ami tartalmazza az elempárok el˝ofordulását. Ha ezek után egy vet´ıtett fát akarunk kész´ıteni, akkor sz¨ ukségtelen id˝ot tölten¨ unk az els˝o lépéssel, hiszen a tömb megfelel˝o sorából ¨ közvetlen megkaphatjuk a támogatottságokat. Osszess´ egében az els˝o lépés gyorsabb (nem kell a fában bolyonganunk, csak a tömb elemeit kiolvasni), a második lassabb (a tömböt is fel kell tölteni), a memóriafogyasztás pedig nagyobb (a tömb méretével).


85

4.4.2. Patricia

4.5. Elavult technik´ ak 1993 o´ta kétszáz kör¨ uli cikk jelent meg gyakori elemhalmazokat kinyer˝o algoritmusok témájában. Legtöbb cikk egy u ´ j gyors´ıtási tr¨ ukköt vagy egy u ´ j módszert mutatott be és a szerz˝oi azt a´ll´ıtják, hogy az o˝ módszer¨ uk a legjobb. Ez nyilvánvalóan képtelenség. A rengetek módszer miatt kialakult káoszt néhány kutató megelégelte és megrendezték 2003-ban és 2004-ben a gyakori elemhalmazokat kinyer˝o algoritmusok versenyét. Sebesség tekintetében az Eclat és az FP-growth k¨ ulönböz˝o módos´ıtásai voltak a legjobbak, a memória terén pedig az Apriori volt kiemelked˝o. A továbbiakban felsoroljuk azokat az algoritmusokat, amelyeket mai napig megtalálhatunk k¨ ulönböz˝o adatbányászati tankönyvekben, a legtöbb kutató a´ltal ismertek, de a versenyek során egyik sem bizony´ıtotta be, hogy beférne az elit algoritmusok körébe. A tanulmány korábbi verzióiban ezek az elavult módszerek le´ırásai is ott szerepeltek az Apriori, Eclat és FPgrowth mellett, mára azonban csak a következ˝o listában kapnak helyet : SETM [78], AprioriTID [7], Apriori-Hybrid [7], DHP [130], DIC, Patr´ıcia, Tree projection, DF-apriori [136],

4.6. Mintav´ etelez˝ o algoritmus elemz´ ese Az egyszer˝ u mintavételez˝o algoritmust bemutatunk a 11.5.4 részben. Itt azt vizsgáljuk, hogy mekkora mintát célszer˝ u venni annak érdekében, hogy az algoritmus minden gyakori elemhalmazt megtaláljon.

4.6.1. Mintav´ etel nagys´ aga Mintavételezésen alapuló eljárásoknál a minta mérete központi kérdés. Ha a minta t´ ul kicsi, akkor a mintából nyert információ távol a´llhat a teljes adatbázisban található globális helyzett˝ol”. Mivel fölöslegesen nagy minta lass´ u algoritmusokat eredményez, ezért fontos egy ” kicsi, de már pontos képet adó mintaméret meghatározása. A 3.3.7 részben megadtuk, hogy mekkora mintát kell választani, ha azt akarjuk, hogy a relat´ıv gyakoriságok megegyezzenek az el˝ofordulások valósz´ın˝ uségével. Használjuk most is a A 3.3.7 részben bevezetett elnevezéseket és jelöléseket. Nézz¨ uk, hogy mennyivel kell csökkenteni a gyakorisági k¨ uszöböt (min f req 0 ) ahhoz, hogy kicsi legyen annak valósz´ın˝ usége, hogy tetsz˝oleges gyakori elem mintához tartozó gyakorisága kisebb a csökkentett k¨ uszöbnél, tehát : Y P(gyakoriság(x, m) < min f req 0 ) = P < min f req 0 m egy adott k¨ uszöbnél (δ 0 ) kisebb kell legyen és tudjuk, hogy p > min f req A fenti egyenletre alkalmazva a Hoeffding-korlátot azt kapjuk, hogy P

Y < min f req 0 = m

4. FEJEZET. GYAKORI ELEMHALMAZOK P P

86

Y − p < min f req 0 − p < m

Y − p < min f req 0 − min f req m ≤ e−2(min freq’-min freq)

2m

tehát ahhoz, hogy a hibázás valósz´ın˝ usége kisebb legyen δ 0 -nél teljes¨ ulnie kell, hogy r 1 1 0 min f req < min f req − ln 0 2m δ A 4.2 táblázat azt mutatja, hogy rögz´ıtett hibakorlát mellett (δ 0 = 0.001) adott mintamérethez mennyi legyen a csökkentett k¨ uszöb. min freq (%) 0.25 0.50 0.75 1.00 1.50 2.00

20000 0.13 0.34 0.55 0.77 1.22 1.67

Minta mérete 40000 60000 0.17 0.18 0.38 0.40 0.61 0.63 0.83 0.86 1.30 1.33 1.77 1.81

80000 0.19 0.41 0.65 0.88 1.35 1.84

4.2. táblázat. A k¨ uszöb csökkentése adott mintaméretekre rögz´ıtett δ = 0.001 mellett

4.7. Elemhalmazok Galois lez´ arja Egy minta zárt, ha nincs vele egyez˝o támogatottság´ u b˝ovebb minta. Eset¨ unkben ez azt jelenti, hogy ha egy elemhalmaz nem zárt, akkor pontosan azokban a bemeneti elemekben fordul el˝o, amelyekben a lezártja. Ha például az A elem lezártja az AB halmaz, akkor tudjuk, hogy az A halmaz soha nem fordul el˝o a bemeneti elemekben a B elem nélk¨ ul. Ebben a részben a lezárt további tulajdonságait fogjuk megismerni. Azért illetj¨ uk a lezártat a Galois jelz˝ovel, mert teljes¨ ulni fog a lezárás operátorra a Galois elméletb˝ol jól ismert 3 tulajdonság. Miel˝ott erre rátér¨ unk nézz¨ uk meg, hogy az elemhalmazokat tartalmazó mintakörnyezet egyértelm˝ u-e a zártságra nézve. 4.19. lemma. Az elemhalmazokat tartalmaz´ o mintak¨ ornyezet a z´ arts´ agra nézve egyértelm˝ u. Bizony´ıt´ as: Indirekt tegy¨ uk fel, hogy az I elemhalmaznak létezik két lezártja, azaz létezik I 0 , I 00 k¨ ulönböz˝o elemhalmazok, amelyekre a minimalitás mellett teljes¨ ulnek a I ⊂ I 0 , I ⊂ I 00 , |I 0 | = 00 0 00 = |I |, supp(I ) = supp(I ) feltételek. Ez azt jelenti, ahogy azon tranzakciók, amelyek I-t tartalmazzák, tartalmazzák az I 0 \ I és az I 00 \ I halmazokat is. De ebb˝ol következik, hogy ezek a tranzakciók I 0 ∪ I 00 is tartalmazzák, azaz I 0 ∪ I 00 is lezártja I-nek, ´ıgy sem I 0 sem I 00 nem lehet minimális.


87

A fentiek miatt a gyakori zárt elemhalmazokból és azok támogatottságaiból egyértelm˝ uen meg tudjuk határozni a gyakori elemhalmazokat és azok támogatottságát. A gyakori zárt minták tehát a zárt minták egy veszteségmentes tömör´ıtése, érdemes csak ezeket meghatározni és eltárolni [131–133, 194].

4.7.1. A z´ art elemhalmazok fogalma Az I elemhalmaz z´ art, amennyiben nincs n´ ala b˝ ovebb halmaz, amelynek t´ amogatotts´ aga megegyezik I t´ amogatotts´ ag´ aval. Jelölj¨ uk cover-rel azt a f¨ uggvényt, amely egy elemhalmazhoz az azt tartalmazó tranzakciók halmazát adja meg. A zárt elemhalmazokra adhatunk egy másik defin´ıciót is. Vezess¨ uk, be a cover 0 f¨ uggvényt : 4.20. defin´ıci´ o. Legyen T = ht1 , . . . , tn i tranzakci´ ok sorozata, amelynek minden eleme az I-nek 0 N I egy részhalmaza. Defini´ aljuk a cover : 2 → 2 f¨ uggvényt a k¨ ovetkez˝ oképpen \ cover 0 (T ) = {i ∈ I|∀j ∈ T, i ∈ cover(tj )} = cover(t) t∈T

Teh´ at cover 0 (T ) megadja azon k¨ oz¨ os elemeket, amelyeket minden olyan tranzakci´ o tartalmaz, amelynek sorsz´ ama T -beli. A (cover, cover 0 ) f¨ uggvénypárt az T és I hatványhalmazai közötti Galois-kapcsolatnak h´ıvjuk. Legyen a példaadatbázisunk a következ˝o : hACD, BCE, ABCE, BE, ABCEi. Ekkor : cover({A, C}) = {1,3,5}, cover(∅) = {1,2,3,4,5}, cover 0 ({1,2,3}) = {C}, cover 0 ({1,4}) = ∅. Az alábbi tulajdonságok igazak tetsz˝oleges t, t1 , t2 ⊆ T és I, I1 , I2 ⊆ I halmazokra : (1) I1 ⊆ I2 ⇒ cover(I1 ) ⊇ cover(I2 ) (10 ) T1 ⊆ T2 ⇒ cover 0 (T1 ) ⊇ cover 0 (T2 ) (2) T ⊆ cover(I) ⇐⇒ I ⊆ cover 0 (T ) 4.21. defin´ıci´ o. A h = cover 0 ◦ cover (vagy h0 = cover ◦ cover 0 ) oper´ atort Galois-lez´ ar´ as oper´ atornak h´ıvjuk. Belátható, hogy tetsz˝oleges halmaznak a lezártja tartalmazza magát a halmazt, továbbá a Galois-lezárás operátora idempotens és monoton, tehát (I) I ⊆ h(I) (I 0 ) T ⊆ h0 (T ) (II) h(h(I)) = h(I) (II 0 ) h0 (h0 (T )) = h0 (T ) (II) I1 ⊆ I2 ⇒ h(I1 ) ⊆ h(I2 ) (III 0 ) T1 ⊆ T2 ⇒ h0 (T1 ) ⊆ h0 (T2 ) 4.22. defin´ıci´ o (z´ art elemhalmaz). I elemhalmaz z´ art, amennyiben I = h(I). Tetsz˝oleges elemhalmazt (I) tartalmazó minimális elemszám´ u zárt elemhalmazt a lezárás operátor alkalmazásával kaphatunk meg ; ez éppen h(I) lesz. A példaadatbázisban található zárt elemhalmazok alábbiak :


88

zárt elemhalmazok {∅}, {C}, {B,E}, {B,C,E}, {A,C}, {A,B,C,E}, {A,C,D}, {A,B,C,D,E} Adósok vagyunk még annak bizony´ıtásával, hogy a két defin´ıció ekvivalens, azaz, ha h(C) = C, akkor C-nél nincs b˝ovebb halmaz, amely támogatottsága megegyezne C támogatottságával, illetve ford´ıtva. A két a´ll´ıtás közvetlen adódik a következ˝o tételb˝ol. 4.23. t´ etel. Minden elem t´ amogatotts´ aga megegyezik lez´ artj´ anak t´ amogatotts´ ag´ aval, teh´ at supp(I) = supp(h(I)) Bizony´ıt´ as: A lezárás (1) tulajdonsága miatt supp(I) ≥ supp(h(I)). Ugyanakkor supp(h(I)) = |cover(h(I))| = |cover(cover 0 (cover(I)))| = |h0 (cover(I))| ≤ supp(I) a (III’) miatt, amib˝ol következik az egyenl˝oség.

A 11.4.2 részben bemutatjuk, hogy a gyakori mintákból hogyan választhatjuk ki a zártakat, illetve az APRIOR-CLOSE algoritmust, ami már eleve csak a gyakori zárt mintákat a´ll´ıtja el˝o. Az APRIOR-CLOSE algoritmusnál léteznek gyorsabb algoritmusok (CHARM [193], CLOSET [135], CLOSET+ [179], MAFIA [30]), ezek ismertetését˝ol eltekint¨ unk.

4.8. K´ enyszerek kezel´ ese Ebben a részben azt a speciális feladatot nézz¨ uk meg, hogy miként lehet csökkenteni a bemenetet, ha az anti-monoton kényszerek mellett monoton kényszereket is megadunk. Már az a´ltalános mintakeresésnél megtárgyaltuk, hogy tetsz˝oleges anti-monoton kényszer könny˝ uszerrel beép´ıthet˝o az APRIORI algoritmusba. Most azt nézz¨ uk meg, hogy a monoton kényszerek hogyan alkalmazhatók a bemeneti tér csökkentésére. Adott egy bemeneti sorozat, minimális támogatottsági k¨ uszöb és monoton kényszerek C halmaza. Feladat a bemenet csökkentése oly módon, hogy bármely teljes algoritmus a csökkentett bemeneten is teljes legyen.

4.8.1. ExAnte Az ExAnte [102] algoritmus kétféle lépést ismétel egészen addig, am´ıg ez valamilyen változást jelent. Az els˝o lépés azon tranzakciók törlése, amelyek nem adnak igaz értéket minden C-beli kényszeren. Az ilyen tranzakciók csak olyan minták támogatottságát növelik, amelyek u ´ gysem elég´ıtik ki a kényszereket (ez következik a kényszerek monoton tulajdonságából). A második lépésben a bemenet elemei köz¨ ul törölj¨ uk a ritkákat, hiszen azok u ´ gysem játszanak szerepet a támogatottság meghatározásánál.


89

Látnunk kell, hogy az els˝o lépésbeli törlés u ´ j ritka elemekhez vezethet, ami csökkenti bizonyos tranzakciók méretét, ami viszont ahhoz vezethet, hogy ezek u ´ jabb kényszereket fognak sérteni. Jogos tehát, hogy a két módszert felváltva futtassuk addig, am´ıg van valami változás. Az algoritmus a bemenet csökkentése mellett el˝oa´ll´ıtja azon gyakori elemeket, amelyekre minden kényszer teljes¨ ul. Gyakori elemhalmaz csak ezekb˝ol az elemekb˝ol ép¨ ulhetnek fel. Nézz¨ unk egy példát. Az adatbázisban 8 elem és 9 tranzakció van. Legyen min supp = 4. Minden elemnek van egy a´ra. Az egyetlen kényszer (sum(i.´ ar) > 44) szerint a halmazban található termékek a´rának o¨sszege 44-nél nagyobb legyen. A következ˝o két táblázat adja meg az adatokat.

termék A B C D E F G H

a´r 5 8 14 30 20 15 6 12

TID 1 2 3 4 5 6 7 8 9

tranzakció B, C, D, G A, B, D, E B, C, D, G, H A, E, G C, D, F, G A, B, C, D, E A, B, D, F, G, H B, C, D B, E, F, G

a´r o¨sszeg 58 63 70 31 65 77 76 52 49

Az els˝o végigolvasás során meghatározzuk az elemek támogatottságát azon tranzakciókban, amelyek kielég´ıtik a kényszert (a 4-es kivételével mindegyik). Ezután törölj¨ uk a ritka elemeket (A, E, F, H). Ismét végigmegy¨ unk az adatbázison, de most már ezeket az elemeket nem nézz¨ uk, aminek következtében u ´ jabb tranzakciók esnek ki (2,7,9). A kiesett tranzakciók miatt csökkennek a támogatottságok, ´ıgy u ´ jabb elem lesz ritka (G). Ezt ´ıgy folytatjuk, am´ıg van változás. A 4. végigolvasás után azt kapjuk, hogy csak az 1,3,6,8 tranzakciókat és a B, C, D elemeket kell figyelembe venni.

4.9. T¨ obbsz¨ or¨ os t´ amogatotts´ agi k¨ usz¨ ob Az univerzális támogatottsági k¨ uszöbnek vannak el˝onyei és hátrányai. El˝onye, hogy felhasználhatjuk azt a tényt, hogy gyakori minta minden részmintája gyakori, ami alapján hatékony algoritmusokat adhatunk. Hátránya, hogy a ritkán el˝oforduló, de mégis fontos mintákat csak akkor tudjuk kinyerni, ha a támogatottsági k¨ uszöböt alacsonyra a´ll´ıtjuk. Ez viszont rengeteg gyakori mintához fog vezetni, ha egyáltalán le tud futni az algoritmus. K¨ ulönböz˝o támogatottsági k¨ uszöbök (vagy másként támogatottsági k¨ uszöb f¨ uggvényének) megadásával ez a probléma elker¨ ulhet˝o : a nem lényeges mintáknak legyen nagy a k¨ uszöb¨ uk, a lényegesebbeknek legyen alacsony. Egyedi támogatottsági k¨ uszöbök bevezetésével azonban felborul eddigi kényelmes világunk, amelyet az biztos´ıtott, hogy nem lehet egy minta gyakori, ha van ritka részmintája. A részminták támogatottsági k¨ uszöbe ugyanis nagyobb lehet, ´ıgy hiába nagyobb a támogatottsága, ett˝ol még lehet ritka. A következ˝okben bemutatjuk a legels˝o és legegyszer˝ ubb támogatottsági k¨ uszöb f¨ uggvényt, majd bemutatjuk az MSApriori algoritmust, amely ezt hatékonyan kezeli.


90

4.9.1. MSApriori algoritmus Kézzel megadni a 2I minden elemének támogatottsági k¨ uszöbét fáradságos, s˝ot nagy |I| esetén kivitelezhetetlen feladat. Az MSApriori algoritmusnál csak az egyelem˝ u elemhalmazok támogatottsági k¨ uszöbét lehet megadni. Jelölj¨ uk az i elem k¨ uszöbét M IS(i)-vel. Az I elemhalmaz támogatottsági k¨ uszöbe legyen a legkisebb támogatottsági k¨ uszöbbel rendelkez˝o elemének támogatottsági k¨ uszöbe (M IS(I) = mini∈I {M IS(i)}). Akkor gyakori az I halmaz, ha támogatottsága nagyobb vagy egyenl˝o M IS(I)-nél. A defin´ıcióból következik, hogy tényleg nem mondhatjuk, hogy gyakori minta minden részmintája gyakori. Például az ABC elemhalmaz BC részhalmazának nagyobb lehet MIS értéke. Ha a feladat megoldására az APRIORI algoritmust használjuk u ´ gy, hogy csak a gyakori elemhalmazok kiválasztásának módját módos´ıtjuk (min supp cseréje M IS(I)-re), akkor nem garantált, hogy jó megoldást kapunk. Ha például a BC ritka, akkor az ABC halmaz nem lenne a jelöltek között annak ellenére, hogy akár gyakori is lehet. Szerencsére a probléma könnyen orvosolható. Csak azt kell észrevenn¨ unk, hogy mi okozhatja a hibát. Az Vaks´ agot okoz a nyakkend˝ o ” a´ltalánosság megsértése nélk¨ ul feltehetj¨ uk, hogy az ele- A kutat´ as szerint a szorosan mek MIS érték¨ uk alapján növekv˝o sorba vannak rendez- megk¨ ot¨ ott nyakkend˝ o cs¨ okkentheve. A MIS defin´ıciójából következik, hogy tetsz˝oleges `- ti a nyaki véna hatékonys´ ag´ at, elem˝ u I = {i1 , . . . , i` } halmaz ` − 1 darab (` − 1)-elem˝ u ez´ altal a szem vérell´ at´ as´ at, részhalmazának MIS értéke megegyezik I MIS értékével, és h´ alyog kialakul´ as´ ahoz, ami M IS(i1 ). Ezeknek a részhalmazoknak tehát gyakorinak legs´ ulyosabb esetben pedig kell lenni¨ uk, hiszen a támogatottság monotonsága most is részleges vagy teljes vaks´ aghoz fennáll. Az egyetlen részhalmaz, amely lehet ritka, az I leg- vezethet. Még veszélyesebb a els˝o elemét nem tartalmazó részhalmaz. Ezt a részhalmazt helyzet a vékony nyak´ u emberek tehát ne vizsgáljuk a jelölt el˝oa´ll´ıtás második lépése során. esetében, mert az o ˝ vén´ ajuk Kivétel ez alól azon eset, amikor a második elem MIS értéke érzékenyebb – mutatnak r´ a az megegyezik az els˝o elem MIS értékével, mert ekkor még en- orvosok.” Forrás : http://pvg. nek a részhalmaznak is gyakorinak kell lennie. uw.hu/cikk/nyakkendo.html Amennyiben ` > 2, akkor biztos, hogy a generátorok egyike sem egyezik meg a legkisebb elemet nem tartalmazó részhalmazzal (`>2 esetében ugyanis a generátorok (`−2)-elem˝ u prefixei megegyeznek, amelyek biztos, hogy tartalmazzák a jelölt els˝o elemét). Ez pedig garantálja, hogy az algoritmus teljes, amennyiben az o¨sszes gyakori elempárt megtaláltuk. Nézz¨ uk meg most az egy- és kételem˝ u jelöltek esetét. Gyakori elemek meghatározásánál a szokásos eljárást követj¨ uk : minden elem jelölt. Elempárok esetében azonban nem a´ll´ıthatjuk, hogy egy pár akkor jelölt, ha mindkét eleme gyakori. Például az AB pár lehet gyakori akkor is, ha az A ritka. Ha ugyanis B-nek MIS értéke kisebb A-nak MIS értékénél, akkor az AB-nek a MIS értéke megegyezik B-nek a MIS értékével, ´ıgy AB lehet gyakori. Szerencsére sz¨ ukségtelen az o¨sszes elemet figyelembe venni. Ha például az A elem ritka és az A MIS értéke a legkisebb, akkor a támogatottság monotonságából következik, hogy az A-t tartalmazó halmazok ritkák. Ha tehát MIS érték szerint növekv˝oen vannak rendezve az elemek, akkor a legkisebb˝ol kiindulva keress¨ uk meg az els˝o gyakori elemet. Az o¨sszes utána következ˝ot figyelembe kell venni a jelöltpárok el˝oa´ll´ıtásánál akkor is, ha valamelyik ritka.

5. fejezet Asszoci´ aci´ os szab´ alyok A gyakori elemhalmazokat felhasználhatjuk arra, hogy gyakori elemhalmazokra vonatkozó szabályokat nyerj¨ unk ki bel˝ol¨ uk. Az I1 → I2 asszociációs szabály azt a´ll´ıtja, hogy azon bemeneti elemek, amelyek tartalmazzák I1 -et, tartalmazzák a´ltalában I2 -t is. Például a pelenkát vásárlók sört is szoktak venni. Mi az értelme ezeknek a szabályoknak ? Például az, hogy szupermarket extra profithoz juthat az alábbi módon : Ha I1 → I2 szabály igaz, akkor o´riási h´ırverés közepette csökkents¨ uk I 1 termékek a´rát (mondjuk 15%-kal). Emellett diszkréten emelj¨ uk meg I2 termék a´rát (mondjuk 30%-kal) u ´ gy, hogy az I1 a´rcsökkentéséb˝ol származó profitcsökkenés kisebb legyen, mint az I 2 a´remeléséb˝ol származó profitnövekedés. Az I1 és I2 termékek eladásai egy¨ utt mozognak, tehát az I2 termék eladása is n˝oni fog. Amit veszt¨ unk a réven, azt megnyerj¨ uk a vámon : o¨sszességében a profitunk n˝oni fog, és a leárazás reklámnak is jó volt. Korunkra jellemz˝o olcsó internetes u ¨ zletek is ilyen szabályok alapján dolgoznak. Tudják milyen terméket vásárolnak egy¨ utt. Sokszor az egy¨ utt vásárlást el˝o is ´ırják azzal, hogy nem adják el o¨nmagában az olcsó a´rucikket, csak akkor, ha megveszi az u ¨ gyfél a drága kiegész´ıt˝ot is. Az ilyen szabályokból nyert információt használhatják emellett a´ruházak terméktérképének kialak´ıtásához is. Cél a termékek olyan elrendezése, hogy a vev˝ok elhaladjanak az o˝ket érdekelhet˝o termékek el˝ott. Gondoljuk meg, hogyan lehet kiaknázni e célból egy asszociációs szabályt. Elemhalmazok sorozatát a´brázolhatjuk bináris értékeket tartalmazó táblával is. Ekkor az asszociációs szabályok attrib´ utumok közötti o¨sszef¨ uggést mutatnak : ha az I 1 attrib´ utumok értékei 1-es, akkor nagy valósz´ın˝ uséggel az I2 attrib´ utumok értéke is az. A valósz´ın˝ uség értékét a szabály bizonyoss´ aga adja meg. Csak olyan szabályok lesznek érdekesek, amelyek bizonyossága magas. Például a házasságban él˝ok 85%-ának van gyermek¨ uk. Az asszociációs szabályok felhasználási ter¨ ulete egyre b˝ov¨ ul. A piaci stratégia meghatározásán t´ ul egyre fontosabb szerepet játszik a döntéstámogatás és pénz¨ ugyi el˝orejelzések ter¨ uletén is. Nézz¨ uk most az asszociációs szabály pontos defin´ıcióját.

91

´ OS ´ SZABALYOK ´ 5. FEJEZET. ASSZOCIACI

92

5.1. Az asszoci´ aci´ os szab´ aly fogalma Használjuk a 4.1 részben bevezetett defin´ıciókat és jelöléseket (elemhalmaz, kosár, támogatottság, fedés, gyakori elemhalmaz stb.). 5.1. defin´ıci´ o (asszoci´ aci´ os szab´ aly). Legyen T az I hatv´ anyhalmaza felett értelmezett soroc,s zat. Az R:I1 −→I2 kifejezést c bizonyoss´ ag´ u, s t´ amogatotts´ ag´ u asszociációs szabálynak nevezz¨ uk, ha I1 , I2 diszjunkt elemhalmazok, és c=

suppT (I1 ∪ I2 ) , suppT (I1 )

s = suppT (I1 ∪ I2 )

A szab´ aly bal oldal´ at feltétel résznek, a jobb oldal´ at pedig következmény résznek nevezz¨ uk. Az R : I1 → I2 szabály bizonyosságára gyakran conf (R)-ként Feladat egy adott kosársorozatban azon asszociációs szabályok megtalálása, amelyek gyakoriak (támogatottságuk legalább min supp), és bizonyosságuk egy el˝ore megadott korlát felett van. Jelölj¨ uk ezt a bizonyossági korlátot min conf -fal. A feltételt kielég´ıt˝o szabályokat érvényes asszoci´ aci´ os szab´ alyoknak h´ıvjuk, az 1 bizonyossággal rendelkez˝oket pedig egzakt asszoci´ aci´ os szab´ alynak.

hivatkozunk. Felmérések igazolj´ ak, hogy azok ” a legboldogabb p´ arok, akik nemcsak hétk¨ oznapi problém´ ajukat osztj´ ak meg egym´ assal, de mernek a titkos a ´lmaikr´ ol is beszélni.” Forrás : Wellness 2007. októberi szám 106. oldal

5.2. defin´ıci´ o (´ erv´ enyes asszoci´ aci´ os szab´ aly). T kosarak sorozat´ aban, min supp t´ amogatotts´ agi és min conf c,s bizonyoss´ agi k¨ usz¨ ob mellett az I1 −→ I2 asszoci´ aci´ os szab´ aly érvényes, amennyiben I1 ∪ I2 gyakori elemhalmaz, és c ≥ min conf A fenti feladatot két lépésben oldjuk meg. El˝oször el˝oa´ll´ıtjuk a gyakori elemhalmazokat, majd ezekb˝ol az érvényes asszociációs szabályokat. Az els˝o lépésr˝ol szól a 4. fejezet, nézz¨ uk most a második lépést. Minden I gyakori termékhalmazt bontsunk fel két diszjunkt nem u ¨ res részre (I = I 1 ∪ I2 ), supp(I) majd ellen˝orizz¨ uk, hogy teljes¨ ul-e a supp(I1 ) ≥ min conf feltétel. Amennyiben igen, akkor a I1 → I2 egy érvényes asszociációs szabály. A támogatottság anti-monoton tulajdonságát felhasználhatjuk annak érdekében, hogy ne végezz¨ unk t´ ul sok felesleges kettéosztást. 5.3. ´ eszrev´ etel. Amennyiben I1 , I gyakori elemhalmazok a T bemeneti sorozatban, és I1 ⊂ I, illetve I1 → I\I1 nem érvényes asszoci´ aci´ os szab´ aly, akkor I10 → I\I10 sem érvényes semmilyen I10 ⊂ I1 -re. c,s

supp(I) 1 ∪(I\I1 )) Bizony´ıt´ as: Az I1 −→ I\I1 nem érvényes szabály, tehát c = supp(I = supp(I < min conf . supp(I1 ) 1) 1 1 0 Mivel a támogatottság anti-monoton, ezért supp(I1 ) ≥ supp(I1 ), amib˝ol supp(I 0 ) ≤ supp(I , és 1) 1 0 0 0 ebb˝ol, ha c -vel jelölj¨ uk az I1 → I\I1 szabály bizonyosságát, akkor

c0 =

supp(I) supp(I) ≤ < min conf 0 supp(I1 ) supp(I1 )

tehát I10 → I\I10 sem érvényes asszociációs szabály.


93

Weka 3.5.7 Az asszociációs szabályokkal kapcsolatos osztályokat az Explorer Associate f¨ ulén kereszt¨ ul érhetj¨ uk el.

5.1.1. Maxim´ alis k¨ ovetkezm´ eny˝ u asszoci´ aci´ os szab´ aly A maximális méret˝ u gyakori mintákból az o¨sszes gyakori mintát meghatározhatjuk. Ez abból következik, hogy gyakori minta minden részmintája gyakori. Asszociáció szabályoknál is vannak olyanok, amelyekb˝ol más szabályok levezethet˝ok. Nézz¨ unk két egyszer˝ u levezetési szabályt. Tegy¨ uk fel, hogy I1 → I2 érvényes asszociációs szabály, ekkor – I1 → I20 is érvényes, minden I20 ⊆ I2 -re. – I1 ∪i→I2 \{i} is érvényes minden i∈I2 -re. Ezek szerint a következményrészb˝ol tetsz˝oleges elemet a´ttehet¨ unk a feltételrészbe. Mindkét a´ll´ıtást a támogatottság anti-monoton tulajdonságából közvetlen¨ ul adódik. Ezek szerint minden asszociációs szabály levezethet˝o a maximális következményrésszel rendelkez˝o asszociációs szabályokból. Persze a levezethet˝oség nem a lejobb szó, ugyanis a szabályok paramétereire nem tudunk következtetni.

5.1.2. Egzakt asszoci´ aci´ os szab´ alyok b´ azisa A 100%-os bizonyossággal rendelkez˝o asszociációs szabályokat egzakt asszoci´ aci´ os szab´ alyoknak h´ıvjuk. Az egzakt asszociációs szabályokra érvényes tranzitivitás is, tehát I 1 → I2 és I2 → I3 -ból következik, hogy I1 → I3 . Matematikus beáll´ıtottság´ u emberek agyában azonnal felmer¨ ul, hogy van-e az egzakt asszociációs szabályoknak egy minimális bázisa, amelyb˝ol minden egzakt asszociációs szabály levezethet˝o. Ehhez a bázishoz a pszeud´ o-z´ art elemhalmazokon kereszt¨ ul jutunk. 5.4. defin´ıci´ o. I ⊆ I pszeudo-z´ art elemhalmaz, ha nem z´ art, és minden I 0 ⊂ I, ahol I 0 pszeudoz´ art elemhalmazra fenn´ all, hogy lez´ artja val´ odi része I-nek. Az u ¨ res halmaz pszeudo-zárt, amennyiben az nem zárt. A pszeudo-zárt elemhalmazok seg´ıtségével tudunk egy olyan szabálybázist megadni, amelyekb˝ol az o¨sszes egzakt asszociációs szabály megkapható. 5.5. defin´ıci´ o. Legyen F P a pszeudo-z´ art elemhalmazok halmaza T-ben. Ekkor a Duquenne–Guigues-b´ azist a k¨ ovetkez˝ oképpen defini´ aljuk :

Pici péniszt okozhat a parf¨ um” ” Forrás : http://www.ma.hu/ page/cikk/aj/0/166581/1

DG = {r : I1 → h(I1 ) \ I1 |I1 ∈ F P, I1 6= ∅}, ahol az I lez´ artj´ at h(I)-vel jel¨ olt¨ uk.


94

5.6. t´ etel. A Duquenne–Guigues-b´ azisb´ ol az o ¨sszes egzakt szab´ aly levezethet˝ o és a b´ azis minim´ alis elemsz´ am´ u, teh´ at az egzakt szab´ alyoknak nincsen olyan kisebb elemsz´ am´ u halmaza, amelyb˝ ol az o ¨sszes egzakt asszoci´ aci´ os szab´ aly levezethet˝ o. A Duquenne–Guigues-bázis maghatározásához a pszeudo-zárt elemhalmazokra van sz¨ ukség, amelyek a nem zárt gyakori elemhalmazokból ker¨ ulnek ki. A pszeudo-zártság eldöntéséhez a defin´ıcióból indulunk ki : amennyiben I nem zárt gyakori termékhalmaznak létezik olyan részhalmaza, amely lezártja tartalmazza I-t, akkor I nem pszeudo-zárt elemhalmaz. Ellenkez˝o esetben az. Jelölj¨ uk az i-elem˝ u gyakori, illetve gyakori zárt halmazokat GY i és ZGYi -vel. Az algoritmus menete a következ˝o : Vegy¨ uk fel az u ¨ res halmazt a pszeudo-zártak közé, amennyiben az nem zárt. Ezután vizsgáljuk GY1 \ ZGY1 , GY2 \ ZGY2 , . . . GYm \ ZGYm halmazokat. Az I ∈ GYi \ ZGYi pszeudo-zártságának eldöntéséhez, az o¨sszes eddig megtalált kisebb elemszám´ u pszeudo-zárt elemhalmazra ellen˝orizz¨ uk, hogy részhalmaza-e I-nek és ha igen akkor lezártja tartalmazza-e I-et. Amennyiben tehát létezik olyan I 0 ∈ F Pj (j < i), amire fennáll, hogy I 0 ⊂ I és I ⊆ h(I 0 ), akkor I nem pszeudo-zárt, ellenkez˝o esetben igen. Ekkor I lezártja az I-t tartalmazó legkisebb zárt halmaz.

´ 5.2. Erdekess´ egi mutat´ ok Az asszociációs szabályok gyakorlati alkalmazása során az alábbi három s´ ulyos probléma jelentkezett : I. Az asszociációs szabályok száma t´ ul nagy. Ha magasra a´ll´ıtjuk a két k¨ uszöbszámot, akkor kevés szabály lesz érvényes, azonban ekkor számos – am´ ugy érdekes – szabály rejtve marad. Ellenkez˝o esetben azonban rengeteg szabály jön létre, amelyek köz¨ ul kézzel kiválogatni a fontosakat szinte lehetetlen feladat. II. Az asszociációs szabályok félrevezet˝ok lehetnek. Mivel az adatbányászat fontos stratégiai döntéseknek adhat alapot, félrevezet˝o szabály rossz stratégiát eredményezhet. Fejts¨ uk ki ezt egy kicsit b˝ovebben. Egy asszociációs szabályra szoktak u ´ gy tekinteni (helytelen¨ ul ! ! ! lásd 5.6 rész), mint egy valósz´ın˝ uségi okozatiság viszonyra : adott termékhalmaz megvásárlása nagy valósz´ın˝ uséggel másik termékhalmaz megvásárlását okozza”. Az oko” zatiság valósz´ın˝ uségét a szabály bizonyossága adja meg. Csak ennek az értékét vizsgálni azonban nem elég ! Képzelj¨ unk el egy b¨ ufét, ahol az alábbiak teljes¨ ulnek. Az emberek egyharmada hamburgert vesz, egyharmada hot-dogot, egyharmada hamburgert és hot-dogot egyszerre. Azok és csak azok vesznek majonézt, akik hamburgert esznek. Ezek szerint a kosarak”66% ” tartalmaz hot-dogot és 50%-uk hot-dogot és majonézt is. Emiatt a hot-dog → majonéz érvényes asszociációs szabály lehet. Felhasználva az asszociációs szabályok bevezetésénél bemutatott tr¨ ukköt, a hot-dogért felel˝os részleg vezet˝oje (,) u ´ gy dönt, hogy a nagyobb értékes´ıtés reményében csökkenti a hot-dog a´rát és növeli a majonézét. A várakozásokkal ellentétben a profit csökkenni fog ! Miért ? Azért, mert a hamburger fogyasztók a hot-dog kedvez˝o a´ra miatt inkább hot-dogot vesznek, aminek valójában semmi köze a majonézhez, azaz annak eladása nem fog n˝oni. Következtetés¨ unk az, hogy egy asszociációs szabály nem jelent okozatis´ agot.


95

A példa jól szemlélteti, hogy a bizonyosság nem a legtökéletesebb mutató az o¨sszef¨ uggések méréséhez. Gondoljunk arra, hogy egy szabály bizonyossága a következményrész feltételes c,s 1 ,I2 ) valósz´ın˝ uségét próbálja becs¨ ulni, tehát I1 −→ I2 esetén c = p(I2 |I1 ) = p(I . Amennyiben p(I1 ) p(I2 |I1 ) megegyezik p(I2 )-vel, akkor a szabály nem hordoz semmi többlet- hasznos információt (kivéve azt, hogy I2 az I1 -et tartalmazó kosarakban is ugyanolyan gyakori, mint a´ltalában. De ilyen szabály rengeteg van !). III. A legtöbb szabály nem érdekes. Pontosabban a szabályok nagy része bizonyos más szabályoknak semmitmondó speciális esetei, apró módos´ıtásai. Sz¨ ukség lenne valahogy a szabályokat fontosságuk alapján sorba rendezni, vagy minden szabályhoz egy érdekességi mutatót rendelni. Az második problémára a f¨ uggetlenségi mutató bevezetése lesz a megoldás. A harmadik ´ problémának is köze van a f¨ uggetlenséghez. Erdekes szabályt, ha felhig´ıtunk” egy kicsit f¨ ugget” len elemekkel, akkor még kaphatunk érdekes szabályt. A felhig´ıtott szabály azonban egy extra feltételt tartalmaz ´ıgy feleslegesen speciálist. Többet ér egy a´ltalános szabály, mint sok speciális szabály felsororása.

5.3. Szab´ alyok f¨ uggetlens´ ege Az o¨sszef¨ ugg˝oség mérésére számos mutatószámot vezettek be a kutatók.

5.3.1. lift ´ ert´ ek Egy szabály nem érdekes, ha a feltétel és a következményrészek f¨ uggetlenek egymástól. Valósz´ın˝ uségszám´ıtásbeli ismereteinket felidézve : az X és az Y események f¨ uggetlenek p(X,Y ) egymástól, ha p(X, Y ) = p(X)p(Y ), azaz ha a p(X)p(Y ) hányados értéke 1. Minél jobban eltér a hányados egyt˝ol, annál inkább o¨sszef¨ ugg˝ok az események. Ez alapján egy szabály lift értékét, amely a f¨ uggetlenséget szándékozik megragadni, a következ˝oképpen definiáljuk : lift(I → I 0 ) =

f req(I ∪ I 0 ) , f req(I) · f req(I 0 )

ahol f req a gyakoriságot jelöli. Csendben feltételezt¨ uk, hogy a valósz´ın˝ uséget a relat´ıv gyakorisággal közel´ıthetj¨ uk. Ha ezek után egy adatbázisból a rejtett o¨sszef¨ uggéseket asszociációs szabályok formájában akarjuk kinyerni, akkor a támogatottsági és bizonyossági k¨ uszöb mellett f¨ uggetlenségi k¨ uszöböt (min lif t) is megadhatunk. Például, ha min lif t = 1.3, akkor azok a szabályok érdekesek, 1 amelyekre lif t(R) ≥ 1.3 vagy lif t(R) ≤ 1.3 . Gyakori termékhalmazból alkotott asszociációs szabály lift értékének meghatározásához minden adat rendelkezés¨ unkre a´ll, ´ıgy könnyedén megkaphatjuk az értékét. A lift érték el˝onye, hogy könny˝ u értelmezni, még a matematika iránt kevésbé fogékonyak is f req(I∪I 0 )

req(I) 0 megértik. Írjuk a´t a lift defin´ıcióját a következ˝o alakra : lift(I → I 0 ) = ffreq(I eteles 0 ) . Ez az I felt´ 0 relat´ıv gyakoriságának és az I relat´ıv gyakoriságának a hányadosa. Ha például vásárlói szokások elemzésénél a sör → pelenka szabály lift értéke 2, akkor a sört vásárlók körében a pelenkát vásárlók aránya dupla annyi, mint u ´ gy a´ltalában a pelenkát vásárlók aránya.


96

5.3.2. Empirikus kovariancia, empirikus korrel´ aci´ o A lift érték bevezetésénél használt logika alapján mondhatnánk, hogy két esemény akkor f¨ uggetlen, ha a p(X, Y ) és a p(X)p(Y ) szorzat k¨ ulönbsége 0. Minél jobban eltér a k¨ ulönbség nullától, annál nagyobb az o¨sszef¨ uggés X és Y között. Legyen tehát a f¨ uggetlenségi mutatónk cov(I → I 0 ) = f req(I ∪ I 0 ) − f req(I) · f req(I 0 ). Relat´ıv gyakoriságváltozás helyett abszol´ ut gyakoriságváltozást használunk. De mi köze mindennek a c´ımben eml´ıtett empirikus kovarianciához ? Egyáltalán, mi az az empirikus kovariancia ? ! ? Az X és Y valósz´ın˝ uségi változók kovarianciája cov(X, Y ) = E[(X − µ)(Y − ν)] = E[X · Y ] − µ · ν, ahol µ Ausztr´ al kutat´ ok a ´ll´ıt´ asa szerint és ν az X és Y várható értékét jelöli. Könny˝ u belátni, ”a sok stressz elh´ız´ ashoz vezet.” hogy a kovariancia nulla, amennyiben X és Y f¨ uggetlenek. Forrás : http://www.hirtv.hu/ Ha s˝ ur˝ uségf¨ uggvényeket nem ismerj¨ uk, hanem csak megfi- eletmod/?article_hid=165457 gyelések (xi , yi )-k a´llnak rendelkezés¨ unkre, akkor P empirikus 1 kovarianciáról beszél¨ unk, amelynek defin´ıciója : n ni=j (xj − − x¯)(yj − y¯), ahol x¯ és y¯ a mintaátlagokat jelölik. Az I és I 0 valósz´ın˝ uségi változók jelölhetik két termék megvételét. Az asszociációs szabályoknál bevezetett jelöléseket használva a mintaátlaga ekkor a gyakorisággal egyezik meg az ij pedig 1, amennyiben a j-edik kosár tartalmazza az i terméket. Ekkor n

1X (ij − f req(I))(i0j − f req(I 0 )) cov(I → I ) = n j=1 0

n n n X X 1X 0 0 0 0 ij + nf req(I)f req(I ) ij − f req(I ) ij i − f req(I) = n j=1 j j=1 j=1

= f req(I ∪ I 0 ) − f req(I)f req(I 0 ) − f req(I)f req(I 0 ) + f req(I)f req(I 0) = f req(I ∪ I 0 ) − f req(I)f req(I 0 ).

) A kovariancia normalizálásából adódik a korreláció : corr(X, Y )= cov(X,Y . A korreláció értéke σX σY mindig -1 és 1 közé esik. Szám´ıtsuk ki egy asszociációs szabály empirikus korrelációját. Mivel 2 egynek és nullának a négyzete egy és nulla, azért σX = E[X 2 ] − E 2 [X] = E[X] − E 2 [X]. Ebb˝ol

Cov(I → I 0 ) f req(I ∪ I 0 ) − f req(I)f req(I 0 ) p =p σI σI 0 E[I](1 − E[I]) · E[I 0 ](1 − E[I 0 ]) f req(I ∪ I 0 ) − f req(I)f req(I 0 ) . =p ¯ req(I 0 )f req(I¯0 ) f req(I)f req(I)f

corr(I → I 0 ) =

5.3.3. A χ2 -statisztika

Valójában a lift mutató nem ragadja meg kell˝oképpen a két esemény (I és I 0 el˝ofordulása) statisztikai f¨ uggetlenségét. Tudjuk, hogy az I, I 0 események f¨ uggetlenek, ha p(I)p(I 0 ) = p(I, I 0 ), amelyet a´t´ırhatunk 1 = p(I 0 |I)/p(I) alakra. A jobb oldal annyiban tér el a f¨ uggetlenségi mutatótól, hogy abban a valósz´ın˝ uségek helyén relat´ıv gyakoriságok szerepelnek. Pusztán a relat´ıv gyakoriságok hányadosa nem elég jó mérték a f¨ uggetlenség mérésére. Nézz¨ unk például a


97

következ˝o két esetet. Els˝o esetben négy tranzakció van, supp(I) = 2, c = 0.5, amib˝ol f = 1. A másodikban a tranzakciók száma négyezer, supp(I) = 1992, c = 0.504, amib˝ol f = 1.012. Ha csak a f¨ uggetlenségi mutatókat ismernénk, akkor azt a téves következtetést vonhatnánk le, hogy az els˝o esetben a két esemény f¨ uggetlenebb, mint a második esetben. Holott érezz¨ uk, hogy az els˝o esetben olyan kevés a tranzakció, hogy abból nem tudunk f¨ uggetlenségre vonatkozó következtetéseket levonni. Minél több tranzakció alapján a´ll´ıtjuk, hogy két elemhalmaz el˝ofordulása o¨sszef¨ uggésben van, annál jobban kizárjuk ezen a´ll´ıtásunk véletlenségének (esetlegességének) esélyét. A f¨ uggetlenség mérésére a statisztikusok a´ltal alkalmazott eszköz az u ´ n. χ 2 próbastatisztika. 2 Az A1 , A2 , . . . , Ar és B1 , B2 , . . . , Bs két teljes eseményrendszer χ próbastatisztikáját az alábbi képlet adja meg : 2 ki. k.j kij − r X s X n 2 χ = ki. k.j i=1 j=1 n Ps P ahol kij az Ai ∩ Bj esemény, ki. = j=1 kij az Ai esemény és k.j = ri=1 kij a Bj esemény bekövetkezésének számát jelöli. Minél kisebb a próbastatisztika, annál inkább f¨ uggetlenek az események. A jelölést megjegyzését seg´ıt˝o kétszer kettes kontingenciatáblát a következ˝o a´bra mutatja. P X nem X Y k1,1 k1,2 k1. nem k2,2 k2. P Y k2,1 k.1 k.2 n

A mi eset¨ unkben az egyik eseményrendszer az I elemhalmaz a másik az I 0 elemhalmaz el˝ofordulásához tartozik, és mindkét eseményrendszernek két eseménye van 1 (el˝ofordul az elemhalmaz az adott tranzakcióban, vagy sem). A következ˝o táblázat mutatja, hogy a χ2 próbastatisztika kiszám´ıtásához sz¨ ukséges értékek köz¨ ul melyek a´llnak rendelkezés¨ unkre támogatottság formájában. P I nem I I0 supp(I ∪ I 0 ) supp(I’) 0 nem PI supp(I) |T |

A hiányzó értékeket a táblázat ismert értékei alapján könnyen pótolni, hiszen például k 2,1 = = supp(I) − supp(I ∪ I 0 ). A χ2 próbastatisztika helyett használhatjuk mutatószámnak a próba p-értékét. A p-érték megegyezik azzal a legnagyobb próbaszinttel, amely mellett a hipotézis¨ unket (f¨ uggetlenség) elfogadjuk. A χ2 próba közel´ıtésen alapul ezért akkor m˝ uködik jól, ha a kontingencia táblázat elemei nagyok. Kétszer kettes táblázat esetében az o¨kölszabály az, hogy mind a négy elem nagyobb legyen 10-nél. 1

Amennyiben mindkét eseményrendszer két eseményb˝ ol a ´ll, akkor az eredeti képletet m´ odos´ıtani szok´ as a 2 P P k k k k i. .j i. .j 2 2 1 − . Yates-féle korrekci´ os egy¨ utthat´ oval, azaz χ2 = i=1 j=1 kij − / n 2 n


98

Miel˝ott teljes elégedettségben hátrad˝olnénk a karosszék¨ unkben, mert találtunk egy tudományosan megalapozott módszert, olvassuk el a következ˝oket. 5.7. ´ all´ıt´ as. Kétszer kettes kontingenciat´ abl´ ak esetében a χ2 pr´ obastatisztika értéke megegyezik az empirikus korrel´ aci´ o négyzetének n-szeresével, ahol n-nel a mint´ ak sz´ am´ at jel¨ olj¨ uk. Bizony´ıt´ as: Írjuk fel a χ2 próbastatisztika értékét kétszer kettes kontingenciatáblák esetére : 2 2 (k + k )(k + k ) i1 i2 1j 2j k k kij − 2 X 2 2 X 2 kij − i.n .j X X k11 + k12 + k21 + k22 2 χ = = ki. k.j (ki1 + ki2 )(k1j + k2j ) i=1 j=1 i=1 j=1 n n 2 (k11 k22 − k12 k21 ) 2 2 X 2 2 X 1 (k11 k22 − k12 k21 )2 X X 2 n = = (ki1 + ki2 )(k1j + k2j ) n (ki1 + ki2 )(k1j + k2j ) i=1 j=1 i=1 j=1 n (k11 k22 − k12 k21 )2 1 1 1 1 1 1 = + · + ( + ) n k11 + k12 k11 + k13 k12 + k22 k21 + k22 k11 + k13 k12 + k22 2 1 1 1 1 (k11 k22 − k12 k21 ) · + + = n k11 + k12 k21 + k22 k11 + k13 k12 + k22 2 (k11 k22 − k12 k21 ) k11 + k12 + k21 + k22 k11 + k12 + k21 + k22 = · · n (k11 + k12 )(k21 + k22 ) (k11 + k21 )(k12 + k22 ) k1. k.1 2 3 n(k11 k22 − k12 k21 )2 n (k11 − n ) n(f11 − f1. f.1 )2 = = = , k1. k2. k.1 k.2 k1. k2. k.1 k.2 f1. f2. f.1 f.2 ahol fij = kij /n. A bizony´ıtás során többször felhasználtuk, hogy n = k11 + k12 + k21 + k22 .

Ha a χ2 -próbastatisztika csak egy megbonyol´ıtott korreláció, amely pedig egy normalizált kovariancia, a kovariancia pedig a lift érték testvére”, akkor most miért is mond többet a ” χ-próbastatisztika a lift értéknél ? Egyrészr˝ol, az eredményként egy eloszlásf¨ uggvényt kapunk, nem csak egy számot. Ez olyan, mint amikor megkérdezz¨ uk az u ´ tvonaltervez˝o programtól, hogy mennyi id˝obe fog telni, hogy eljussunk A pontból B-be. Egy kezdetleges program egy konkrét számot adna eredmény¨ ul. A valóságban azonban a helyes válasz egy eloszlásf¨ uggvény, amelynek meghatározhatjuk például a várható értékét és a szórását. A szorás, amely a bizonytalanságra utal, szintén fontos paraméter. Másrészr˝ol, mert figyelemebe veszi az adatbázis méretét. Nem nek¨ unk kell meghatároznunk egy jó lift értéket, amely adatbázisonként más lesz, hanem csak a próba szintjét kell megadnunk és máris sz˝ urhetj¨ uk ki azokat a szabályokat, amelyek feltétel- és következményrésze között nincs szignifikáns kapcsolat. Olyan, mintha a sz˝ urésre használt k¨ uszöböt is automatikusan a´ll´ıtanánk el˝o.


99

5.3.4. A binomi´ alis pr´ oba A χ-próba és az ebb˝ol adódó p-érték nem használható, ha a 2 × 2-es kontingenciatáblázat valamely eleme kisebb, mint 10. Hagyjuk a statisztikát és térj¨ unk vissza az elemi valósz´ın˝ uségszám´ıtáshoz. Induljunk ki abból, hogy az I és az I 0 események f¨ uggetlenek egymást˝ol, azaz P (I, I 0 ) = = P (I)P (I 0 ). Legyen Zj = Ij · Ij0 , azaz Zj = 1, amennyiben a j-edik kosárban el˝ofordul az I P és az I 0 termék is. A Z = N alis eloszlás´ u valósz´ın˝ uségi változó N és P (I, I 0 ) j=1 Zj binomi´ paraméterekkel. A P (I, I 0 ) valósz´ın˝ uséget a f req(I ∪ I 0 ) értékkel közel´ıtj¨ uk. Azt kell eldönten¨ unk, hogy a megfigyeléseink (z1 , . . . zn ) ellentmondanak-e a kiindul´ PN asi feltételb˝ol kapott következtetésnek. Jelölj¨ uk a próba szintjét 1 − α-val ésP legyen z = j=1 zj . Határozzuk meg azt a legsz˝ ukebb [l, u] intervallumot, amelyre igaz, hogy uk=l P (Z = k) ≤ 1 − −α. Amennyiben z a [l, u] intervallumba esik, akkor X és Y (tehát az I és I 0 termékhalmazok) f¨ uggetlenek egymástól. Ha ezt a megközel´ıtést használjuk egy asszociációs szabály f¨ uggetlenségének megadására, akkor legyen a f¨ uggetlenségi mutató a szabály p-értéke. Határozzuk meg azt az [l 0 , u0 ] intervalluP 0 mot, amelynek minden k elemére igaz, hogy P (Z =k)>P (Z =z). A p-érték ekkor uk=l0 P (Z =k).

5.3.5. Fisher-f´ ele egzakt pr´ oba

A binomiális próba a P (I, I 0 ) valósz´ın˝ uséget a (I ∪ I 0 ) relat´ıv gyakoriságával közel´ıti. A közel´ıtés pontatlansághoz vezet. Gondoljuk meg, hogy a binomiális eloszlás nemnulla valósz´ın˝ uséget fog rendelni az n-nél kisebb, min{supp(I), supp(I 0)}-nél nagyobb értékekhez. Azonban ezeknek a valósz´ın˝ uségeknek nullának kellene lenni¨ uk. Nem fordulhat az el˝o, hogy az I-nél nagyobb, I-t részhalmazként tartalmazó halmaznak supp(I)-nél nagyobb legyen a támogatottsága. Hasonló mondható el az n − supp(I) − supp(I 0 ) értékekre, amennyiben n − −supp(I)−supp(I 0 )>0. A Fisher-féle egzakt próba a közel´ıtés helyett a pontos valósz´ın˝ uségeket használja. Tegy¨ uk fel, hogy a kontingenciatáblázat u ´ n. marginális értékei (k 1. , k2. , k.1 , k.2 ) és ´ıgy a minták száma is adva vannak. Ez az asszociációs szabályoknál azt jelenti, hogy a kosarak száma, supp(I) = k1. és supp(I 0 ) = k.1 rögz´ıtettek. A kérdés a következ˝o : Ha tudjuk, hogy a k1. darab I termék és a k.1 darab I 0 termék egyenletes eloszlás szerint véletlenszer˝ uen van szétszórva az n kosárban, akkor mennyi az esélye annak, hogy az I 0 -t tartalmazó kosarakból X darabban lesz I. Elvonatkoztatva a részletekt˝ol ez ugyanaz a kérdés, mint amelyet a hipergeometrikus eloszlás bemutatásakor tett¨ unk fel (lásd a 2.5.1 rész). Ezek szerint k2. k1. P (X, n, k1. , k.1 ) =

X

k.1 −X n k.1

.

Ez a valósz´ın˝ uség már o¨nmagában egy jó mutatószám. Minél nagyobb az értéke, annál f¨ uggetlenebbek az I és az I 0 termékek. Ha a χ2 statisztikához hasonló p-értéket szeretnénk kapni, akkor ki kell számolni az o¨sszes olyan X 0 -re a P (X 0 , n, k1. , k.1 ) valósz´ın˝ uséget, amely0 0 re P (X , n, k1. , k.1 ) ≤ P (X, n, k1. , k.1 ). Ezeket az X értékeket h´ıvjuk extrémebb, azaz kisebb valósz´ın˝ uség˝ u értékeknek. A p-érték ezen extrém értékhez rendelt valósz´ın˝ uségek o¨sszegének egyt˝ol vett k¨ ulönbsége. Formálisan : X pFisher (I → I 0 ) = 1 − P(X 0 , n, supp(I), supp(I 0)) X 0 :P (X 0 ,n,supp(I),supp(I 0))≤P (supp(I∪I 0 ),n,supp(I),supp(I 0))


100

A Fisher-próbát nem csak kis értékeknél használhatjuk, tulajdonképpen f¨ uggetlenség eldöntésére ez a módszer mindig a legjobb eredményt adja. Hátránya, hogy nagy n, k 1. , k.1 értékeknél nehéz a valósz´ın˝ uségeket kiszám´ıtani. Így jutunk el a χ2 próbához. Amennyiben k1. N , akkor a hipergeometrikus eloszlást közel´ıthetj¨ uk az k1. , k.1 /n paraméter˝ u binomiális eloszlással. A binomiális eloszlást pedig a normális eloszlással közel´ıthetj¨ uk. Standard normális eloszlás´ u valósz´ın˝ uségi változók négyzetének o¨sszege pedig olyan valósz´ın˝ uségi változót ad, 2 amelynek eloszlása a χ eloszlás. Ty˝ u, a mindenit, de szép ez az egész ! ´ ekinvariancia Ert´ Egy f¨ uggetlenségi mutatót értékinvariánsnak h´ıvunk, amennyiben a kontingencia-táblázat tetsz˝oleges sorait vagy oszlopait felcserélve ugyanazt a kimenetet (p-értéket) kapjuk. Bináris ¯ és X, ¯ Y¯ ) esetre gondolva ez azt jelenti, hogy X és Y f¨ uggetlensége esetén, X és Y¯ (továbbá X,Y is az. Ha például megállap´ıtjuk, hogy a tejvásárlás és kenyérvásárlás f¨ uggetlenek egymástól, akkor tejvásárlás, nem kenyérvásárlás is f¨ uggetlenek. Könny˝ u belátni, hogy a Fisher-féle egzakt próba és a χ2 próba megfelel a fenti elvárásnak, de a binomiális próba nem. A Fisher-féle egzakt próbához csak azt kell meggondolnunk, hogy k2. n−k2. k1. n−k1. P (X, n, k1. , k.1 ) =

X

k.1 −X n k.1

=

k.1 −X

n k.1

X

= P (k.1 − X, n, n − k1. , k.1 ),

tehát attól, hogy a két sort (vagy a két oszlopot) felcserélj¨ uk még ugyanazt a hipergeometrikus 2 eloszlást kapjuk. A χ próbára vonatkozó a´ll´ıtás közvetlen adódik a χ2 statisztika defin´ıciójából. A binomiális próba esetét egy példával vizsgáljuk. Induljunk ki a bal oldali kontingenciatáblából majd cserélj¨ uk fel a két sorát. P P X nem X X nem X Y 2 0 2 Y 0 1 1 nem nem 0 1 1 2 0 2 PY PY 2 1 3 2 1 3 A bal oldali kontingenciatáblához (3, 4/9) paraméter˝ u binomiális eloszlás tartozik. A kett˝ohöz nagyobb valósz´ın˝ uség tartozik, mint a nullához és a háromhoz, ezért a p-érték 1 − 2 − 3 · 49 · 592 = 0.588. A jobb oldali kontingenciatábla binomiális eloszlásához tartozó valósz´ın˝ uség 2/9. A legnagyobb valósz´ın˝ uséget a (3, 2/9) paraméter˝ u binomiális eloszlás nullánál veszi fel a maximumát ezért a p-érték egy. ´ Erdekess´ eg Most, hogy tudjuk hogyan kell f¨ uggetlenséget meghatározni, feltehetj¨ uk azt a kérdést, hogy legalább hány megfigyelésnek kell rendelkezés¨ unkre a´llnia ahhoz, hogy o¨sszef¨ uggést a´llap´ıtsunk meg. Adott 1−α próbaszint mellett csak akkor tudunk o¨sszef¨ uggést megállap´ıtani (f¨ uggetlenséget elutas´ıtani), ha az elfogadási tartományon k´ıv¨ ul van olyan pont, amelyet felvehet azoknak a megfigyeléseknek a száma, amelyre mindkét vizsgált tulajdonság fenáll. Az elfogadási tartományba a legnagyobb valósz´ın˝ uséggel rendelkez˝o pontok esnek. Amennyiben a legkisebb


101

valósz´ın˝ uség˝ u pont valósz´ın˝ usége kisebb α-nál, akkor ez a pont nem esik az elfogadási tartományba. Kétoldali próbánál két legkisebb valósz´ın˝ uségi pont is lehet, ´ıgy ezen valósz´ın˝ uségek o¨sszege kell α-nál kisebbnek lennie. Ha n páratlan, akkor csak egy legkisebb valósz´ın˝ uségi pont lehet, élj¨ unk ezért ezzel a feltétellel. Az a´ltalánosság megsértése nélk¨ ul feltehetj¨ uk, hogy k 1. ≤k.1 .1 +1) és a hipergeometrikus eloszlás módusza (b (k1. +1)(k c) nem nagyobb, mint az értelmezése tarn+2 tomány ([max(0, n − k1. − k.1 ), min(k1. , k.1 )]) felez˝opontja. A legkisebb valósz´ın˝ uségi pont ekkor a k1. , amelynek valósz´ın˝ usége k2. (n−k1. )! k1. P (k1. , n, k1. , k.1 ) =

k1.

k.1 −k1. n k.1

=

(k.1 −k1. )!(n−k.1 )! n! (n−k.1 )!k.1 !

(n − k1. )(n − k1. − 1) · · · (k.1 − k1. + 1) n(n − 1) · · · (k.1 + 1) n−k .1 +1 Y k1. = (1 − ) n−i i=0 =

A fenti valósz´ın˝ uség rögz´ıtett n esetén akkor lesz a legnagyobb, ha k 1. minél nagyobb, tehát k1. = k.1 . Ekkor viszont 1 P (k1. , n, k1. , k1. ) = n , k1.

amely k1. = bn/2c-nél és k1. = dn/2e veszi fel a minimumát. Az 5.1 táblázat második oszlopa megadja a legkisebb valósz´ın˝ uséget néhány n-re Ezek szerint 97%-os bizonyossággal már n

P (bn/2c, n, bn/2c, bn/2c)

3 5 7 9 11 13 15

33.33% 10.00% 2.85% 0.79% 0.21% 0.06% 0.02%

p-érték binom χ2 29.76 18.34 12.11 8.24 5.70 4.00 2.82

% % % % % % %

8.32% 2.53% 0.81% 2.69% 0.09% 0.03% 0.01%

5.1. táblázat. p-értékek extrém kontingencai-táblázat esetén hét megfigyelésb˝ol o¨sszef¨ ugg˝oséget a´llap´ıthatunk meg. Ehhez a legextrémebb eseménynek kell bekövetkeznie, nevezetesen, 7 megfigyelésb˝ol háromra teljes¨ ul egy tulajdonság (X) és csak erre a három megfigyelésre egy másik tulajdonság (Y ) is teljes¨ ul. Tehát a kontingenciatáblázat : P X nem X Y 3 0 3 nem Y 0 4 4 P 3 4 7

A P (bn/2c, n, bn/2c, bn/2c) érték egyben annak a tesztnek a p-próbája, amelyben a megfigyelések száma n és k11 = k1. = k.1 = bn/2c. Ha a próba szintje ennél az értéknél nagyobb,


102

akkor elutas´ıtjuk a f¨ uggetlenségre tett feltételt, ellenkez˝o esetben elfogadjuk. A f¨ uggetlenség eldöntésére használhatnánk más próbát is. Az 5.1 táblázat harmadik és negyedik oszlopa a megfigyelés p-értékét adja meg binomiális és χ2 próba esetén. Láthatjuk, hogy a binomiális próba jóval nagyobb p-értékeket ad ugyanarra a megfigyelésre, azaz a binomiális próba ,,f¨ uggetlenség felé h´ uz”. Például n = 11 és α = 5% estén a Fisher próba elutas´ıtja a f¨ uggetlenséget a binomiális próba pedig elfogadja azt. Ha megszor´ıtkozunk olyan kontingenciatáblákra, amelyeknél k 1,1 = k1. − 1, tehát nem a legextrémebb eset következik be, akkor a Fisher-féle próba p-értékei a következ˝oképpen alakulnak : p-érték n 5 7 9 11 13 15 17 19

k1,1 = k1. − 1 fisher binom 100% 48.57% 20.62% 8.00% 2.91% 1.01% 0.35% 0.11%

58.17% 61.95% 39.33% 25.45% 16.75% 11.19% 7.59% 5.21%

χ

2

70.9% 27.0% 9.89% 3.56% 1.27% 0.45% 0.16% 0.05%

k1,1 = k1. − 2 fisher binom 40% 100% 100% 56.71% 28.61% 13.19% 5.67% 2.30%

100% 100% 69.4% 70.75% 49.42% 34.30% 23.74% 16.44%

χ2 13.6% 65.9% 76.4% 37.6% 16.9% 7.21% 2.95% 1.17%

A 97%-os bizonyosság megtartásához most már 13 megfigyelés kell (binomiális próba szerint 21, χ2 -próba szerint is 13). Ha hat-hat megfigyelésnél teljes¨ ul az X, Y tulajdonságok, akkor abban az esetben a´llap´ıtunk meg o¨sszef¨ uggést, ha az X, Y tulajdonsággal egy¨ utt rendelkez˝o megfigyelések száma 0, 5 vagy 6.

5.3.6. Tov´ abbi mutat´ osz´ amok A lift, χ-statisztika, vagy p-érték mellett még számos elterjedt mutatószám létezik f¨ uggetlenség mérésére. A teljesség igénye nélk¨ ul felsorolunk néhányat

´ OS ´ SZABALYOK ´ 5. FEJEZET. ASSZOCIACI név empirikus kovariancia empirikus korreláció

jelölés φ

conviction conviction* Jaccardkoefficiens koszinusz mérték normált kölcsönös entrópia

képlet f req(I ∪ I ) − f req(I)f req(I 0 ) 0

√

esélyhányados α Yule féle Q Q érték Yule féle Y Y érték

103

f req(I∪I 0 )−f req(I)f req(I 0 ) f req(I)f req(I)

√

f req(I 0 )f req(I 0 )

f req(I∪I 0 )·f req(I,I 0 ) f req(I,I 0 )·f req(I,I 0 ) α−1 α+1

odds ratio, cross-product ratio

√ √α−1 α+1

measure of colligation az I → I 0 implikáció logikai megfelel˝oje alapján definiálják.

f req(I)f req(I 0 ) f req(I,(I 0 )) 0 0

V V*

max{V (I, I ), V (I , I)}

ς

f req(I∪I 0 ) f req(I)+f req(I 0 )−f req(I∪I 0 )

cos Hn

arccos( √

f req(I∪I 0 ) f req(I)f req(I 0 )

megjegyzés Az a´ltalános képlet a´t´ırásából adódik, felhaszn´ Pn alva, hogy I = = f req(I) és j=1 Ij = supp(I) Az a´ltalános képlet a´t´ırásából adódik, a fentiek mellett felhasználva, hogy Ij2 = Ij .

)

H(I 0 |I) H(I)

5.3.7. Asszoci´ aci´ os szab´ alyok rangsora Az asszociációs szabályok kinyerésének feladatában adott bemeneti sorozat és k¨ uszönszámok mellett célunk volt meghatározni az asszociációs szabályokat. Ennyi. Aztán mindenki kezdjen a szabályokkal, amit akar. A gyakorlatban a´ltalában sok érvényes asszociációs szabályt találunk, hasznos lenne o˝ket sorba rendezni. Ha a három paraméterhez (támogatottság/gyakoriság, bizonyosság, f¨ uggetlenségi mutató) tudnánk s´ ulyt rendelni fontosságuk szerint, akkor az alapján sorrendet tudnánk feláll´ıtani. A marketinges a támogatottságot részes´ıtené el˝onyben a statisztikus a f¨ uggetlenségi mutatót. Elvégre kit érdekel a két termékhalmaz támogatottsága, ha a két termékhalmaz f¨ uggetlen egymástól. F¨ uggetlenség kifejezésére több mutatószámot adtunk meg : lift érték, empirikus kovariancia, empirikus korreláció, χ2 -statisztika, p-érték. Ráadásul χ2 -statisztika helyett használhatunk hipergeometrikus (vagy binomiális) eloszlás alapján definiált p-értéket is. Matematikusokban azonban felmer¨ ul a kérdés, hogy ugyanazt a sorrendet adják-e az egyes f¨ uggetlenségi mutatók. A χ2 -statisztika és az ebb˝ol származtatott p-érték ugyanazt a sorrendet fogja adni, hiszen a p-érték a χ2 -statisztika szigor´ uan monoton f¨ uggvénye. A χ2 -statisztika és az empirikus korreláció között teremt szigoruan monoton kapcsolatot az 5.7 a´ll´ıtás. Az empirikus korreláció és az empirikus kovariancia adhat k¨ ulönböz˝o sorrendet. A korreláció a kovariancia normált változata. Ha két asszociációs szabály köz¨ ul az els˝onek nagyobb a kovarianciája, attól még lehet kisebb a korrelációja, amennyiben az els˝o szabályhoz tartozó két


104

binomiális valósz´ın˝ uségi változó szórásásának szorzata, mint a második szabályhoz tartozó két változó szórásának szorzata. A lift érték és az empirikus kovariancia között nincs monoton kapcsolat, azaz a két mutató alapján k¨ ulönböz˝o sorrendet kaphatunk. Ehhez csak azt kell meggondolnunk, hogy a, b, c, d nulla és egy közötti számokra sem igaz, hogy a c < 6⇐⇒ a − b < c − d. b d Weka 3.5.7

Asszoci´ aci´ os szab´ alyokat a weka.associations.Apriori oszt´ aly seg´ıtségével nyerhet¨ unk ki. Az oszt´ aly nem a klasszikus asszoci´ aci´ os szab´ aly kinyerésének feladat´ at oldja meg – adott min supp, arozzuk meg az érvényes asszoci´ aci´ os min conf , min lif t mellett hat´ szab´ alyokat – hanem csak a legjobb numRules darab szab´ alyt adja meg, ahol numRules a felhaszn´ al´ o a ´ltal megadott paraméter. Ehhez a min supp értéket egy kiindul´ asi értékr˝ ol (upperBoundMinSupport paraméter) mindig delta értékkel cs¨ okkenti és ellen˝ orzi, hogy van-e legal´ abb numRules darab érvényes szab´ aly. Ha van, akkor kiirja a legjobb numRules szab´ alyt, ha nincs, akkor tov´ abb cs¨ okkenti min supp-ot. A minim´ alis t´ amogatotts´ agi k¨ usz¨ ob¨ ot nem cs¨ okkenti annyira, hogy az kisebb legyen a lowerBoundMinSupport paraméternél. A metricType paraméterrel adhatja meg a felhaszn´ al´ o, hogy mi alapj´ an rangsorolja az asszoci´ aci´ os szab´ alyokat a weka. Az empirikus kovarianci´ at a Leverage jel¨ oli. Javasoljuk, hogy a Conviction mutat´ ot sose haszn´ aljuk; ez tulajdonképpen csak egy elbalt´ azott f¨ uggetlenségi mutat´ o. Lehet˝ oség¨ unk van egy oszt´ alyattrib´ utumot kijel¨ olni a car paraméter igazra a ´ll´ıt´ as´ aval és a classIndex megad´ as´ aval. Ekkor csak olyan szab´ alyokat fog a weka el˝ oa ´ll´ıtani, amelyek k¨ ovetkezményrészében csak az oszt´ alyattrib´ utum szerepel.

´ 5.4. Altal´ anoss´ ag, specialit´ as A lift mutató gyengéje, hogy ha találunk egy érdekes szabályt, akkor az mögé elb´ ujva” sok ” érdektelen szabály a´tmegy a sz˝ urésen, azaz érdekesnek bizonyul. Szemléltetésképpen nézz¨ unk egy példát. Legyen az I1 → I2 érvényes és érdekes asszociációs szabály, továbbá I 3 egy olyan gyakori termékhalmaz, amely f¨ uggetlen I1 és I2 -tól (supp(I1 ∪I3 ) = f req(I1 )·f req(I3 ), f req(I2 ∪ ∪ I3 ) = f req(I2 ) · f req(I3 )) és támogatottsága olyan nagy, hogy még a supp(I1 ∪ I2 ∪ I3 ) ≥ ≥ min supp egyenl˝otlenség is fennáll. Könny˝ u belátni, hogy ekkor az I 1 I3 → I2 is érvényes és


105

érdekes asszociációs szabályok, hiszen supp(I1 ∪ I2 ∪ I3 ) supp(I1 ∪ I2 )supp(I3 ) = = supp(I1 ∪ I3 )supp(I2 ) supp(I1 )supp(I2 )supp(I3 ) =intr(I1 → I2 ) ≥ min lift, .

lift(I1 I3 → I2 ) =

supp(I1 ∪ I2 ∪ I3 ) supp(I1 ∪ I2 )supp(I3 ) = ≥ min conf supp(I1 ∪ I3 ) supp(I1 )supp(I3 )

Ezek alapján, egy adatbázisból kinyert érdekes asszociációs szabályok között a többség haszontalan, amennyiben sok a nagy támogatottság´ u, más termékekt˝ol f¨ uggetlen termék. Ha a valóságban n darab érdekes szabályunk van, de az adatbázis tartalmaz c darab a fenti tulajdonsággal rendelkez˝o gyakori elemet, akkor az érdekességi mutató alap´ u sz˝ urésen n2 c szabály fog a´tcs´ uszni a fenti módon. A fenti problémát kik¨ uszöbölhetj¨ uk, ha a feltételrész minden elemét megnézz¨ uk f¨ uggetlen-e a feltételrész többi elemének uniójától. Ha f¨ uggetlen, akkor dobjuk ki az elemet, csak feleslegesen bonyol´ıtja élet¨ unket. S˝ot, az egész szabályt kidobhatjuk. Az eredményként kapott szabály ugyanis ott kell legyen az érvényes szabályok között, hiszen a f¨ uggetlen elem törlése esetén a f¨ uggetlenségi mutató és a bizonyosság nem változik a támogatottság pedig n˝o.

5.5. Asszoci´ aci´ os szab´ alyok ´ altal´ anos´ıt´ asa Számos a´ltalános´ıtását találták ki a kutatók az asszociációs szabályoknak. Ebben a részben ezekb˝ol szemezget¨ unk.

5.5.1. Hierarchikus asszoci´ aci´ os szab´ alyok

A rendszeres alkoholfogyaszt´ as ” n¨ oveli az emlékez˝ otehetséget, k¨ ul¨ on¨ osen a n˝ oknél – jelentette be a Sunday Telegraph a londoni University College kutat´ oi inform´ aci´ oira hivatkozva.” Forrás : http: //www.origo.hu/nagyvilag/ 20040805azalkohol.html

A hierarchikus asszociációs szabályok kinyerése a gyakorlatban tényleg el˝oker¨ ul˝o elvárásként jelentkezett [60, 62, 71, 158, 162, 169]. Vásárlási szokások elemzése közben a marketingesek u ´ j igénnyel a´lltak el˝o. Olyan szabályokat is ki szerettek volna nyerni, amelyek termékkategóriák között mondanak ki o¨sszef¨ uggéseket. Például a sört vásárlók 70%ban valami chips félét is vesznek. Lehet, hogy egyetlen sör és chips közötti asszociációs szabályt nem nyer¨ unk ki, amennyiben sokfajta sör és chips létezik, ugyanis ezen termékek között a támogatottság elaprózódik”. Például a sör → chips támogatottsága lehet 5000, de ha o¨tféle sör létezik, ” akkor termék szinten könnyen lehet, hogy mindegyik, sört tartalmazó, asszociációs szabály támogatottsága 1500 alatt lesz és nem lesz érvényes. Egy u ¨ zletnek a kategória szint˝ u asszociációs szabályok legalább annyira fontosak lehetnek, mint a termékeken értelmezett szabályok (pl. : akciót hirdet¨ unk :’17”-os monitorok o´riási a´rengedményekkel’, miközben más szám´ıtástechnikai alkatrészek – például monitorvezérl˝o kártya – a´rait megemelj¨ uk). Ahhoz, hogy kategóriák is szerepelhessenek asszociációs szabályokban, ismern¨ unk kell az elemek kategóriákba, a kategóriák alkategóriákba sorolását, azaz ismern¨ unk kell az elemek


106

taxon´ omi´ aj´ at, közgazdász nyelven szólva az elemek nomenklat´ ur´ aj´ at. A termék-taxonómia nem más, mint egy gyökeres c´ımkézett fa, vagy fák sorozata. A fa leveleiben találhatók az egyes termékek, a bels˝o csomópontokban pedig a kategóriák. Egy képzeletbeli b¨ ufé terméktaxonómiája az alábbi a´brán látható. étel

palacsinta

´ızes

t´ urós

ital

derelye

kakaós

alkoholos

bor

u ¨ d´ıt˝o

sör

almalé

rostos

szénsavas

narancslé

cola

tonic

5.1. a´bra. Példa : képzeletbeli b¨ ufé termék-taxonomiája ˆ Ha a kategóriák halmazát I-vel jelölj¨ uk, akkor a bemenet továbbra is az I felett értelmezett sorozat, a mintatér elemei azonban I ∪ Iˆ részhalmazai lesznek. Azt mondjuk, hogy az I kosár tartalmazza I 0 elemhalmazt, ha minden i ∈ I 0 -re vagy i ∈ I, vagy ∃i0 ∈ I, hogy i ∈ o˝s(i0 )2 . Tehát egy kosár tartalmaz egy elemhalmazt, ha annak minden elemét, vagy annak leszármazottját tartalmazza. Nyilvánvaló, hogy ha a taxonómia egyetlen feny˝ob˝ol a´ll, akkor a gyökérben található kategóriát minden nem u ¨ res kosár tartalmazza. Hasonlóan módos´ıtanunk kell az asszociációs szabályok defin´ıcióját, hiszen a 92. oldalon 100%,s ˆ szabály érvényes lenne, ha X ˆ ⊆ o˝s(X), és X található defin´ıció szerint minden X −−−−→ X gyakori termékhalmaz. 5.8. defin´ıci´ o (hierarchikus asszoci´ aci´ os szab´ aly). Adott a termékek taxon´ omi´ aja. A benne tal´ alhat´ o termékeket és kateg´ ori´ akat reprezent´ al´ o levelek, illetve bels˝ o csom´ opontok halc,s maz´ at jel¨ olj¨ uk I-vel. I1 −→ I2 -t hierarchikus asszoci´ aci´ os szab´ alynak nevezz¨ uk, ha I 1 , I2 diszjunkt részhalmazai I-nek, tov´ abb´ a egyetlen i ∈ I2 sem o ˝se egyetlen i0 ∈ I1 -nek sem. A támogatottság (s), és bizonyosság (c) defin´ıciója megegyezik az 5.1. részben megadottal. Hierarchikus asszociációs szabályok kinyerése csöppnyit sem bonyolultabb a hagyományos asszociációs szabályok kinyerésénél. Amikor a gyakori elemhalmazokat nyerj¨ uk ki (pl. : az Apriori módszerrel), akkor képzeletben tölts¨ uk fel a kosarakat a kosarakban található elemek o˝sével. Természetesen nem kell valóban el˝oa´ll´ıtani egy olyan adatbázist, ami a feltöltött kosarakat tartalmazza, elég akkor el˝oa´ll´ıtani ezt a kosarat, amikor a tartalmát vizsgáljuk. Ha nem akarunk kinyerni olyan asszociációs szabályokat, amelyben bárhogyan elosztva egy elem és o˝se is szerepel, akkor sz¨ ukségtelen az is, hogy ilyen elemhalmazokkal foglalkozzunk. Ne a´ll´ıtsunk el˝o olyan jelöltet, amely ilyen tulajdonság´ u [162]. 2

Gy¨ okeres gr´ afokn´ al defini´ alhatjuk a sz¨ ul˝ o, gyermek, o ˝s, lesz´ armazott fogalmakat. Ezt az alapfogalmak gr´ afelmélet részében megtett¨ uk.


107

A fentit˝ol k¨ ulönböz˝o megközel´ıtést javasoltak a [62, 71]A kék szem˝ u emberek ben. Az algoritmus azt az észrevételt használja ki, hogy ”hatékonyabban képesek tanulni, ha egy tetsz˝oleges kategória ritka, akkor annak minden és jobban teljes´ıtenek a vizsg´ akon, ´ leszármazottja is ritka. Eppen ezért, az adatbázis els˝o mint s¨ otét szem˝ uek - a ´llap´ıtott´ ak végigolvasása során csak a feny˝ok gyökerében (els˝o szin- meg amerikai kutat´ ok.” Forrás : ten) található kategóriák lesznek a jelöltek. A második http://inforadio.hu/hir/ végigolvasásnál a gyakorinak talált elemek gyerekei, a har- tudomany/hir-143110 madik végigolvasásnál pedig a második olvasásból kiker¨ ult gyakori elemek gyerekei, és ´ıgy tovább. Akkor nincs sz¨ ukség további olvasásra, ha vagy egyetlen elem sem lett gyakori, vagy a jelöltek között csak levélelemek voltak. A gyakori elempárok meghatározásához el˝oször ismét csak a gyökerekben található kategóriákat vizsgáljuk, természetesen csak azokat, amelyeknek mindkét eleme gyakori. A következ˝o lépésben a pár egyik tagjának a második szinten kell lennie, és hasonlóan : az i-edik végigolvasásnál a jelöltpárosok egyik tagja i-edik szintbeli. A fenti eljárást könny˝ u a´ltalános´ıtani gyakori elemhármasok és nagyobb méret˝ u gyakori termékhalmazok megtalálására. A leállási feltétel hasonló az Apriori algoritmuséhoz : ha a jelöltek köz¨ ul senki sem gyakori, akkor minden gyakori hierarchikus termékhalmazt megtaláltunk. A továbbiakban az algoritmust nem tárgyaljuk, részletek és futási eredmények találhatók [71] cikkben. Hierarchikus szab´ aly ´ erdekess´ ege” ” Kategóriák bevezetésével az érvényes asszociációk száma nagymértékben n˝ohet. Ennek oka az, hogy a kategóriák támogatottsága mindig nagyobb, mint a benn¨ uk szerepl˝o termékeké, ´ıgy sokszor szerepelnek majd gyakori termékhalmazokban, amelyekb˝ol az érvényes asszociációs szabályokat kinyerj¨ uk. A szabályok között sok semmitmondó is lesz, amelyek csökkentik az a´ttekinthet˝oséget, és a tényleg fontos szabályok megtalálását. Egy ilyen semmitmondó szabályt az alábbi példa szemléltet : Egy élelmiszer¨ uzletben háromféle tejet lehet kapni : zs´ırszegényt, félzs´ırosat, és normált. Az emberek egynegyede zs´ırszegény tejet iszik. Hierarchikus szabályok kinyerése során többek között az alábbi két érvényes szabály is szerepel (a szabály harmadik paramétere a lift értéket adja) : 80%,4.8%,2

tej −−−−−−→ zabpehely 80%,1.2%,2

zs´ırszegény tej −−−−−−→ zabpehely Látható, hogy a második szabály kevésbé a´ltalános, mint az els˝o és nem hordoz semmi többletinformációt. Jogos tehát az a kijelentés, hogy egy szabály nem érdekes, ha annak bizonyossága és támogatottsága nem tér el a nála a´ltalánosabb szabály paraméterei alapján becs¨ ult értékekt˝ol. A pontos defin´ıciók magadásával nem terhelj¨ uk az olvasót.

5.5.2. Kateg´ oria asszoci´ aci´ os szab´ alyok Az asszociációs szabályok kinyerésénél a bemenet elemhalmazok sorozataként van megadva ´ azolhatjuk a bemenetet, mint bináris mátrix, amelynek az (plussz néhány k¨ uszöbszám). Abr´


108

i-edik sor j-edik eleme egy, ha szerepel az i-edik tranzakcióban a j-edik elem, k¨ ulönben nulla. Tetsz˝oleges bináris relációs táblát is választhatunk bemenetként, ekkor például nem = férfi → t´ ajékoz´ od´ asi készség = j´ o jelleg˝ u szabályokat nyer¨ unk ki. Könnyen kaphatunk kategória asszociációs szabályt a meglév˝o módszereinkkel. Minden olyan A attrib´ utumot, amely k k¨ ulönböz˝o értéket vehet fel (k > 2), helyettes´ıts¨ unk k darab bináris attrib´ utummal. Ha egy elem A attrib´ utumának értéke az i-edik attrib´ utumérték volt, akkor csak i-edik u ´ j attrib´ utum értéke legyen egy, a többié pedig nulla. Az ´ıgy kapott bináris táblán már futtathatjuk a kedvenc asszociációs szabályokat kinyer˝o algoritmusunkat. Weka 3.5.7

A weka.associations.Apriori algoritmus a fenti konverzi´ ot automatikusan elvégzi, ha kateg´ oria t´ıpus´ u attrib´ utummal tal´ alkozik. Ha kézzel szeretnénk mindezt megtenni, akkor haszn´ alatjuk a weka.filters.unsupervised.attribute.NominalToBinary sz˝ ur˝ ot.

5.6. A korrel´ aci´ o nem jelent implik´ aci´ ot A támogatottság és a fontosabb érdekességi mutatók (χ2 -próbastatisztika, p-érték) szimmetrikus f¨ uggvények, nem veszik figyelembe, hogy melyik termékhalmaz szerepel a szabály feltételrészében és melyik a szabály következményrészében. A bizonyosság az egyetlen aszimmetrikus f¨ uggvény, amely meghatározza a szabály irányát. Az asszociációs szabályokban a nyilat használjuk az irány kijelölésére. Ez nagyon rossz döntés volt és rengeteg hamis következtetésnek adott alapot. Ha megvizsgáljuk az asszociációs szabályok három paraméterét, akkor rájöhet¨ unk, hogy egyik paraméter sem jelent okozatiságot. A f¨ uggetlenségi paraméter csak azt mondja meg, hogy a feltételrész nem f¨ uggetlen a következményrészt˝ol. Okozatiságról szó sincs. Biztosan csak azt a´ll´ıthatjuk, hogy nincs okozatisági viszony olyan jelenségek között, amelyek között korreláció sem a´ll fenn (azaz f¨ uggetlenek). A korreláció és az okozatiság o¨sszekeverése nagyon gyakori hiba, amelyre a latin cum hoc ergo propter hoc (magyarul : vele, ezért miatta) kifejezéssel hivatkoznak. Ha A és B között korreláció van, akkor lehet, hogy A okozza B-t, de lehet, hogy másféle kapcsolat a´ll fenn közt¨ uk. Az is lehet, hogy I. B okozza A-t. II. egy harmadik C jelenség okozza A-t és B-t is. Az okozatisági viszonyok ennél jóval bonyolultabb lehetnek. III. lehet, hogy a korrelációt véletlenek k¨ ulönös egy¨ uttállása okozza. Emlékezz¨ unk, hogy a statisztikai tesztek sosem mondanak teljes bizonyossággal semmit. Az els˝ofaj´ u hiba adja meg annak esélyét, hogy mi azt a´ll´ıtjuk, hogy két esemény között o¨sszef¨ uggés a´ll fenn, holott azok f¨ uggetlenek egymástól. IV. A és B egymást is okozhatják kölcsönösen meger˝os´ıt˝o módon. Nézz¨ unk néhány példát.


109

– Az egy cip˝ oben alv´ as er˝ os o ¨sszef¨ uggésben a ´ll a fejf´ aj´ assal ébredéssel. Teh´ at a cip˝ oben alv´ as fejf´ aj´ ast okoz. Nyilvánvalóan hibás ez a következtetés. Sokkal kézenfekv˝obb az a magyarázat, hogy az ittas a´llapot okozza mindkét dolgot. – A következ˝o a´ll´ıtás egy magyar kereskedelmi rádióban hangzott el. Forrásnak amerikai kutatókat neveztek meg. A magassark´ u cip˝ o skizofréni´ at okoz. Az a´ll´ıtás nyilván teljes bl˝odség és csak azért hangzott el, hogy felkeltse a hallgatók figyelmét. – Az alábbi a´ll´ıtás viszont a Nature magazinban hangzott el 1993-ban. Val´ osz´ın˝ ubb, hogy r¨ ovidl´ at´ ok lesznek azok a gyerekek, akik ég˝ o l´ ampa mellett alszanak. Kés˝obbi kutatások kimutatták, hogy valójában a sz¨ ul˝ok rövidlátása és a gyerekek rövidlátása között van o¨sszef¨ uggés továbbá a rövidlátó sz¨ ul˝ok hajlamosabbak a lámpát égve hagyni, mint u ´ gy a´ltalában a sz¨ ul˝ok. Ha vásárlói kosarak elemzéséhez kanyarodunk vissza, akkor ezek szerint I → I 0 nem az jelenti, hogy az I termék az I 0 termék megvásárlását okozza. Ha mind I, mind I 0 megvételét egy harmadik I 00 terméknek köszönhetj¨ uk, akkor csak pénzt vesz´ıtenénk, ha az I termék a´rát 0 csökkentenék a I -ét pedig növelnénk. Az I eladásának növekedése ugyanis nem okozza az I 0 eladását, tehát nem nyernénk vissza az I 0 -vel az I a´rcsökkenéséb˝ol származó profitkiesést. A valóságban a termékek csoportokat alkotnak, amelyekben a termékek eladása kölcsönösen meger˝os´ıtik egymást. Például, ha vesz¨ unk egy fényképez˝ogépet, akkor sokan memóriakártyát és tokot is vesznek. Ha okozati kapcsolatok csak a fényképez˝o → memóriakártya és a fényképez˝o → tok lennének, akkor matematikailag a fényképez˝o és a memóriakártya eladásának nem kéne változnia, ha a tok a´rus´ıtását megsz¨ untetnénk. Legtöbb¨ unknek azonban igenis szám´ıt, hogy egy helyen lehet megvásárolni mindhárom terméket, ezért az eladások igenis csökkennének. A fényképez˝ogép, memóriakártya és tok termékhalmaz egy olyan halmaz, amelynek elemei kölcsönösen meger˝os´ıtik egymás eladását.

5.7. Asszoci´ aci´ os szab´ alyok ´ es az oszt´ alyoz´ as A következ˝o részben az osztályozással és kicsit a regresszióval fogunk foglalkozni. Mik a hasonlóságok és mik a k¨ ulönbségek az asszociációs szabályok kinyerése és az osztályozás között ? Mindkét feladatban attrib´ utumok közötti o¨sszef¨ uggéséket tárunk fel. Az asszociációs szabályok el˝onye, hogy tetsz˝oleges két attrib´ utumhalmaz között találhat o¨sszef¨ uggést. Ezzel szemben osztályozásnál kijelöl¨ unk egy attrib´ utumot és csak azt vizsgáljuk, hogy ezt az attrib´ utumot hogyan határozzák meg a többi attrib´ utumok. Asszociációs szabályok jellemz˝o alkalmazási ter¨ ulete a vásárlási szokások elemzése, ahol minden termékösszef¨ uggés érdekes lehet. Asszociációs szabályoknál bináris attrib´ utumokkal dolgozik. Ha a feltéterészben szerepl˝o attrib´ utumok értéke egy, akkor a következményrészben szerepl˝o attrib´ utum is egy lesz. Ha a feltételrész értéke nulla, akkor nem tudunk semmilyen megállap´ıtást tenni a következményrészre vonatkozóan. Osztályozásnál ilyen nincs, ha tudjuk a magyarázó attrib´ utumok értékét, akkor tudjuk a magyarázandóét is. Az attrib´ utumt´ıpusokra annyi megkötés van, hogy a magyarázandó attrib´ utum kategória t´ıpus´ u legyen (regressziónál numerikus). Más az egyes ter¨ uletek tudományos cikkeinek témája is. Az asszociációs szabályokról szóló cikkek nagy része gyakori elemhalmazok kinyerésér˝ol szól. A f˝o cél az, hogy minél gyorsabb algoritmust adjunk erre az adott feladatra. A feladat értlemét nem vonják kétségbe


110

(sem azt, hogy tényleg sz¨ ukség van-e olyan gyors algoritmusokra, amelyek gigabájt méret˝ u adatokat tudnak feldolgozni másodpercek alatt és gigabájt méret˝ u kimenetet generálnak). A cikkekben algoritmikus és adatstrukt´ urális megoldásokat mutatnak be, implementációs és párhuzamos´ıthatósági kérdéseket vizsgának, nem ritkán egy módszer elemzésénél a hardver tulajdonságait is szám´ıtásba veszik. Ezzel szemben osztályozásnál az osztályozás pontosságának jav´ıtása a f˝o cél, a hatékonyságbeli kérdések csak másodlagosak. Az osztályozás kutatói a´ltalában jóval komolyabb statisztikai tudással rendelkeznek.

6. fejezet Oszt´ alyoz´ as 6.1. Bevezet´ es Ismeretlen, el˝ore nem megfigyelhet˝o változók, attrib´ utumok értékének el˝orejelzése más ismert, megfigyelhet˝o változók, attrib´ utumok ismeretében régóta akt´ıv kutatás tárgyát képezi. A kérdés gyakorlati jelent˝oségét nehéz lenne t´ ulértékelni. Ebben a fejezetben vázlatosan ismertetj¨ uk, hogy miként alkalmazhatók a statisztika és gépi tanulás ter¨ uletén kifejlesztett módszerek 1 az adatbányászatban . A megnevezések tisztázása érdekében el˝orebocsátjuk, hogy a tanulmányban akkor beszél¨ unk el˝orejelzésr˝ol (predikcióról), ha a magyarázott változót intervallum skálán mérj¨ uk. Amennyiben a magyarázott változó diszkrét értékkészlet˝ u, nominális vagy ordinális skálán mért, akkor osztályozásról vagy klasszifikációról (csoportba sorolásról) beszél¨ unk. Fogalmaink szerinti el˝orejelzést és klasszifikációt a statisztikai irodalom a´ltalában regresszió-szám´ıtás, valamint diszkriminancia elemzés és klasszifikáció néven illeti. A gépi tanulás ter¨ uletén az eljárásokat o¨sszefoglalóan fel¨ ugyelt tanulásnak (supervised learning) nevezik. Az adatbányászatban leggyakrabban alkalmazott el˝orejelz˝o és klasszifikáló módszerek a következ˝ok : I. Legközelebbi szomszéd módszerek II. Lineáris és logisztikus regresszió III. Mesterséges neurális hálózatok IV. Döntési szabályok, sorozatok és fák V. Naiv bayesi klasszifikáció és bayesi hálózatok VI. SVM Mindegyik eljárásról elmondható, hogy (legalább) két lépcs˝oben m˝ uködik. El˝oször az u ´ n. tan´ıtó adatbázison felép´ıtj¨ uk a modellt, majd kés˝obb azt alkalmazzuk olyan u ´ j adatokra, amelyeken a magyarázott változó értéke nem ismert, de ismerni szeretnénk. Amikor el˝orejelz˝o, vagy klasszifikáló módszert választunk a következ˝o tulajdonságait célszer˝ u figyelembe venni : 1

Ez a fejezet Sarl´ os Tam´ as és Bodon Ferenc k¨ oz¨ os munk´ aja.

111

´ ´ 6. FEJEZET. OSZTALYOZ AS

112

– El˝orejelzés teljes´ıtménye : Milyen értékes információt ad számunkra a modell a nem megfigyelhet˝o magyarázó változóról (lásd 6.2 szakasz) ? – Gyorsaság : A modell el˝oa´ll´ıtásának és használatának id˝oigénye. ´ ekeny-e a modell hiányzó, vagy outlier adatokra. – Robusztusság : Erz´ – Skálázhatóság : Használható-e a modell nagyon nagy adathalmazokra is ? ´ – Ertelmezhet˝ oség : Kinyerhet¨ unk-e az emberek számára értelmezhet˝o tudást a modell bels˝o szerkezetéb˝ol ? – Skála-invariancia : A klaszterezés lehetetlenség-elméletét adaptálva (lásd 7.1 rész) skálainvariánsnak h´ıvunk egy osztályozó eljárást, ha a módszer kimenete nem változik abban az esetben, ha tetsz˝oleges intervallum t´ıpus´ u magyarázó változó helyett annak α>0-szorosát vessz¨ uk. Az adatbányász közösség leginkább a korábban is ismert el˝orejelz˝o és klasszifikáló eljárások skálázhatóságának A ritk´ abban borotv´ alkoz´ ok továbbfejlesztésében ért el eredményeket. K¨ ulönösen a ”kor´ abban halnak.” Forrás : http: döntési fák ter¨ uletén fejlesztettek ki olyan algoritmusokat, //gondola.hu/cikkek/31731 amelyek akár milliós esetszám´ u tanuló adatbázis esetén is alkalmazhatók. A fejezet hátralév˝o részében el˝oször a klasszifikálók és el˝orejelz˝ok teljes´ıtményének értékelésével foglalkozunk, majd az eljárásokat ismertetj¨ uk. A hagyományos statisztikai módszerek (diszkriminancia anal´ızis, lásd. pl. : [84] ismertetését˝ol eltekint¨ unk, helyett¨ uk inkább az ,,egzotikusabbakra” koncentrálunk : a döntési fák, a mesterséges neuronhálózatok, a Bayeshálózatok, és négy további eljárás f˝obb jellemz˝oit mutatjuk be [89], [73], [63] és [119] ´ırások alapján. Weka 3.5.7 A wekában az osztályozó módszereket a Classify f¨ ul¨ on kereszt¨ ul érj¨ uk el.

6.2. Az oszt´ alyoz´ as feladata Az osztályozás során n-esekkel (angolul tuple) fogunk dolgozni, amelyeket objektumoknak/elemeknek h´ıvunk. Adott lesz objektumok sorozata (vagy zsákja), amelyet tan´ıtó mintáknak, tan´ıtó pontoknak, tan´ıtó halmaznak (habár a halmaz szó használata itt helytelen, hiszen ugyanaz az objektum többször is el˝ofordulhat) nevez¨ unk. Valójában tan´ıtásra a tan´ıtó pontok egy részét használjuk. A többi pont szerepe a tesztelés lesz. Az n-es j-edik elemét j-edik attrib´ utumnak h´ıvjuk. Egy attrib´ utumra névvel is hivatkozhatunk (pl. kor, magasság, szélesség attrib´ utumok), nem csak sorszámmal. Minden attrib´ utumnak saját értékkészlete van. Az A attrib´ utumváltozón olyan változót ért¨ unk, amely az A értékkészletéb˝ol vehet fel értékeket.


113

´ Altal´ anos módon egy klasszifikáló vagy el˝orejelz˝o módszer teljes´ıtményét várható hasznosságával mérhetj¨ uk. Legyen a magyarázandó attrib´ utumváltozó Y , a magyarázó attrib´ utumváltozó(k) pedig X, eljárásunkat jelölj¨ uk f -fel (Az f az X értékkészletér˝ol az Y értékkészletére képez). Ekkor célunk E [U (Y, f (X))] maximalizálása, ahol U (y, yb) jelöli az el˝orejelzett yb hasznosságát, miközben a valódi érték y. Bináris Y esetén bin´ aris oszt´ alyoz´ asr´ ol beszél¨ unk. A feladatot ford´ıtva, E [L (Y, f (X))] minimalizálásaként is megfogalmazhatjuk, ahol L az U inverze, egy veszteséget mér˝o f¨ uggvény. A E [L (Y, f (X))] értéket v´ arhat´ o oszt´ alyoz´ asi hib´ anak (expected prediction error) nevezz¨ uk és V OH-val jelölj¨ uk. Mivel a várható érték változóiban addit´ıv és a konstanssal való eltolás nem változtat az optimalizáláson, ezért L (y, yb)=0 feltehet˝o. A hibát a gyakorlatban egy távolságf¨ uggvénnyel definiálják (lásd 3.2 rész). Amennyiben a magyarázandó változó intervallum skálán mérhet˝o, akkor a két legelterjedtebb megoldás a hiba mérésére a négyzetes hiba L (y, yb) = (y − yb)2 és az abszolut hiba L (y, yb) = = |y − yb| alkalmazása. Fejts¨ uk ki a várható értéket : h 2 i V OH(f ) =E Y − f (X) Z = (y − f (x))2 P(dx, dy) A legkisebb hiba akkor adódik, ha f (x) = E[Y |X = x],

(6.1)

ugyanis h h 2 i 2 i E Y − f (X) = E Y − E[Y |X] + E[Y |X] − f (X) h h h 2 i 2 i 2 i = E Y − E[Y |X] + E E[Y |X] − f (X) ≥ E Y − E[Y |X] ,

mert

E

Y − E[Y |X] E[Y |X] − f (X) = EE Y − E[Y |X] E[Y |X] − f (X) |X = E E[Y |X] − f (X) E[Y − E[Y |X]|X] = E E[Y |X] − f (X) E[Y |X] − E[Y |X] = 0

A második egyenl˝oségnél felhasználtuk, hogy E(V ) = EE(V |W ), a harmadik egyenl˝oségnél felcserélt¨ uk a szorzat két tagját és felhasználtuk, hogy a E[Y |X] − f (X) f¨ uggetlen Y -tól, ezért a várható érték elé mozgatható. Végezet¨ ul ismét a E(V ) = EE(V |W ) tr¨ ukköt használtuk, V = = E[Y |X] és W = X helyettes´ıtéssel. Az f (x) = E[Y |X = x] f¨ uggvényt elméleti regresszi´ os g¨ orbének nevezik. Ha a hiba mérésénél a négyzetösszeg helyett (L2 norma) az k¨ ulönbségösszeget használjuk (L1 norma), akkor az optimális osztályzó : f (x) = median(Y |X = x).

(6.2)

Klasszifikáció esetén a V OH egyszer˝ uen a téves döntések valósz´ın˝ uségekkel s´ ulyozott o¨sszege. Ha a várható értéket meghatározó valódi eloszlásokat ismernénk, akkor megtalálható a


114

legjobb el˝orejelz˝o / klasszifikáló. Például (azonos kovarianciáj´ u) többdimenziós normális eloszlásokat feltételezve egyszer˝ u kvadratikus (lineáris) döntési szabályokat kapunk [167], [84]. Az eloszlás paramétereit a´ltalában még akkor is becs¨ uln¨ unk kell, ha feltételezhet˝o / feltételez¨ unk egy adott t´ıpus´ u eloszlás. Az adatbányászat ter¨ uletén a normalitás nem reális feltevés (gondoljunk a sok nominális változóra). Az adatbányászati módszerek nem élnek feltevésekkel az eloszlással kapcsolatban. Ugyanakkor a módszerek o¨sszetettség¨ uk folytán – ha hagyjuk o˝ket – képesek nem csak a tan´ıtó adatbázis szabályszer˝ uségeit, hanem a mintaadatokban lév˝o egyedi hibákat és torz´ıtásokat is megtanulni (ami kifejezetten káros). Így a´ltalában pusztán a tan´ıtó adatbázis seg´ıtségével nem megalapozott a várható haszon / költség nagyságát megbecs¨ ulni. Mennyire jó egy osztályozó módszer, amely 100% pontosságot ad a tan´ıtó mintákon, de 0%-ot a tesztel˝o adathalmazon ? A t´ ulzott modellbonyolultság elker¨ ulésére pl. : a regressziószám´ıtás ter¨ uletén modellszelek2 ciós kritériumok (módos´ıtott R , Akaike Schwartz, stb.), illetve heurisztikus eljárások (stepwise regresszió) a´llnak rendelkezésre. Az osztályozó módszer kiértékelésér˝ol, illetve osztályozók o¨sszehasonl´ıtásáról a 6.10 részben ´ırunk b˝ovebben. Most lássuk a legismertebb osztályzó módszereket.

6.3. k-legk¨ ozelebbi szomsz´ ed m´ odszere A k-legközelebbi szomszéd módszere egy ,,lusta” klasszifikáló eljárás, amely nem ép´ıt modellt. Alapelgondolása, hogy a hasonló attrib´ utum´ u objektumok hasonló tulajdonságokkal b´ırnak. A hasonlóságot (igazából a k¨ ulönböz˝oséget (lásd 3.2. rész)) a klaszterelemzésnél is használt távolságf¨ uggvénnyel mérj¨ uk. A tanuló adatbázist eltároljuk és amikor egy ismeretlen objektumot kell klasszifikálnunk, akkor megkeress¨ uk a távolságf¨ uggvény szerinti k darab legközelebbi pontot, és az objektumot abba a kategóriába soroljuk, amely a legtöbbször el˝ofordul a k szomszéd között (többségi szavazás). A módszer egyfajta lokális s˝ ur˝ uségf¨ uggvény becsl˝o eljárásnak is tekinthet˝o. A módszer regresszióra is használható. Ekkor a többségi szavazás helyett a szomszédok osztályértékének a´tlagaként szokás megadni a jóslást. Idézz¨ uk fel az optimális osztályozóra tett megállap´ıtásunkat (lásd 6.1 egyenl˝oség), abban az esetben, ha a négyzetes hibaösszeget használjuk : f (x) = E[Y |X = x], azaz tetsz˝oleges pontban az optimális osztályozó értéke megegyezik a feltételes várható értékkel. Bináris osztályozás esetében a k-legközelebbi szomszéd módszerét értelmezhetj¨ uk u ´ gy, hogy tetsz˝oleges pontra kiszám´ıtjuk a fb(x) = Ave(yi |xi ∈ Nk (x)),

ahol Nk (x) az x pont k-legközelebbi szomszédját jelöli, Ave pedig a´tlagot. Ha fb(x) > 0.5, akkor az 1-es osztályba tartozik x, ellenkez˝o esetben a 0-ásba. Az fb(x) tulajdonképpen az f (x) közel´ıtése. A közel´ıtés két okból következik : I. a várható érték helyett a mintaátlagot használtuk,

II. az x pontban vett feltétel helyett az x környezetét vett¨ uk.


115

6.1. a´bra. Tan´ıtópontok a s´ıkon (bal oldali a´bra) és a Voronoi tartományok (jobb oldali a´bra)

Sok tan´ıtópont esetében tetsz˝oleges ponthoz közel lesznek a szomszédai, továbbá az a´tlag egyre stabilabb lesz, amennyiben k egyre nagyobb. Be lehet látni, hogy P (X, Y )-ra tett enyhe feltételek mellett fb(x) → E[Y |X = x], amennyiben N, k → ∞ és N/k → 0. Ezek szerint a k-legközelebbi szomszéd egy univerzális approximátor, nem is érdemes további osztályzókkal foglalkoznunk ? ! ? Legtöbb esetben nem a´ll rendelkezés¨ unkre sok tan´ıtópont. Ha fel tudunk tenni az osztályozásra valamilyen strukt´ urális feltételt (pl. linearitás), akkor ezt kihasználva pontosabb modellt ép´ıthet¨ unk, mint azt a k-legközelebbi szomszéd adna. További probléma, hogy magas dimenziószám mellett (tehát sok attrib´ utum esetén) a konvergencia lass´ u. A legközelebbi szomszéd módszer a´brázolásánál (k = 1 esetén) kedvelt eszköz a Voronoi diagramm. A fel¨ uletet felosztjuk tartományokra u ´ gy, hogy minden tartományba egy tan´ıtó pont essen és igaz legyen, hogy a tartományon bel¨ uli bármely pont a tan´ıtópontok köz¨ ul a tartomány tan´ıtópontjához van a legközelebb. Egy ilyen felosztást láthatunk a 6.1 a´brán 2 . Az osztályozáshoz természetesen nem kell meghatározni a tartományokat és megnézni, hogy az osztályozandó pont melyik tartományba tartozik. Egyszer˝ uen nézz¨ uk végig a tan´ıtópontokat és válasszuk ki a leginkább hasonlót.

6.3.1. Dimenzi´ o´ atok - Curse of dimensionality A legközelebbi szomszéd módszer egy univerzális approximátor, tetsz˝oleges osztályozó f¨ uggvényt képes reprodukálni, csak elég tan´ıtópont kell hozzá. A módszert lokális approximátornak is szokás h´ıvni, mert tetsz˝oleges pont osztályértékét a (lokális) környezetének tan´ıtóértékeinek a´tlagával helyettes´ıti. A módszer jól m˝ uködik alacsony dimenzióknál, de magas dimenzióknál cs˝odöt mond. Erre, mint dimenzióa´tok szoktak hivatkozni és számos szemléltetése, interpretációja létezik. A legkönnyebben érthet˝o az alábbi. Tetsz˝oleges pont környezetében elég tan´ıtópontnak kell lenni. Ideális esetben tetsz˝oleges x pont környezetén az x-t˝ol legfeljebb távolságra lév˝o pontokat értj¨ uk. Ez egydimenziós esetben egy 2 hossz´ u szakaszt, kétdimenziós esetben sugar´ u kört, háromdimenziós esetben sugar´ u gömböt jelent. Ha azt szeretnénk, hogy a keresési térben a tan´ıtópontok s˝ ur˝ usége rögz´ıtett legyen, akkor a tan´ıtópontok számának exponenciálisan kell n˝onie a dimenzió növelésével. A gyakorlatban a tan´ıtópontok adottak, ami a´ltalában behatárolja a dimenziók és ´ıgy a figyelembe vehet˝o attrib´ utumok számát. 2

A szemléltet˝ o a ´br´ at a http://www.manifold.net/doc/7x/transform_voronoi_operators.htm oldalr´ ol t¨ olt¨ ott¨ uk le.


116 hajhossz

szorgalmatlan szorgalmas

1

2

3

4

5

jegyátlag

szorgalmatlan szorgalmas

1

2

3

4

5

jegyátlag

6.2. a´bra. F¨ uggetlen attrib´ utumok hatása a legközelebbi szomszéd osztályozásra

Ez nem jelenti azt, hogy magas dimenziókban nem lehet osztályozó f¨ uggvényt találni, csak megkötést kell tenn¨ unk az osztályozó f¨ uggvény t´ıpusára vonatkozóan. Például, ha u ´ gy gondoljuk, hogy az osztályozó egy lineáris hipers´ıkkal le´ırható, akkor a dimenziók számának növelésével csak lineárisan növekszik a sz¨ ukséges tan´ıtópontok száma (hiszen kétdimenziós esetben két pont határoz meg egy egyenest, három dimenziónál három pont határoz meg egy s´ıkot, stb.).

6.3.2. A legk¨ ozelebbi szomsz´ ed ´ erz´ ekenys´ ege A legközelebbi szomszéd módszer hátránya, hogy érzékeny a f¨ uggetlen attrib´ utumokra. Lássunk egy példát. Feladatunk, hogy egy döntési modellt adjunk a szorgalmas diákokra. Az egyik attrib´ utum a görgetett tanulmányi a´tlag a másik a hajhossz. A 6.2 a´bra mutatja a tan´ıtó pontokat, cél a zölddel jelölt tanuló osztályozása. Ha csak a jegyátlagot tekintj¨ uk, akkor a szorgalmasak közé soroljuk. Ha a távolság megállap´ıtásánál a hajhossz is figyelembe vessz¨ uk, akkor egy olyan hallgató lesz hozzá a legközelebb, akir˝ol tudjuk, hogy szorgalmatlan. S˝ot, ha euklideszi távolságot használunk és a f¨ uggetlen attrib´ utum értékei jóval nagyobbak a f¨ ugg˝o attrib´ utum értékeinél, akkor a f¨ uggetlen attrib´ utum elnyomja” a f¨ ugg˝o attrib´ utumot. ” Számos megoldást javasolnak a f¨ uggetlen attrib´ utum a´ltal okozott hiba kik¨ uszöbölésére. (1.) Ha tehetj¨ uk használjunk több tan´ıtó pontot, (2.) kérdezz¨ uk meg az alkalmazási ter¨ ulet szakért˝ojét, hogy a távolság meghatározásánál mely attrib´ utumokat vegy¨ uk szám´ıtásba, vagy (3.) alkalmazzunk statisztikai tesztet a f¨ uggetlenség megállap´ıtására. Amennyiben nincs sok attrib´ utumunk, akkor meghatározhatjuk az osztályozás pontosságát az o¨sszes attrib´ utum részhalmaz esetén majd kiválaszthatjuk a legjobbat. Sok attrib´ utum esetén az o¨sszes attrib´ utumhalmaz kipróbálása t´ ul sok id˝ot/er˝oforrást k´ıván. Egy (4.) mohó, b˝ov´ıt˝o eljárás egyesével b˝ov´ıtené a tesztelend˝o attrib´ utumhalmazt u ´ gy, hogy az a legjobb osztályozást adja. Ha az osztályozás min˝osége nem javul, akkor befejeznénk a b˝ov´ıtést. Ez a módszer kiselejtezné az X és Y bináris attrib´ utumokat annál az osztályozásnál, amelyben a magyarázandó attrib´ utum értéke X és Y moduló kett˝ovel vett o¨sszege és X, Y egymástól (és a magyarázandó attrib´ utumtól is) teljesen f¨ uggetlenek. Az (5.) csökkent˝o módszerek a teljes attrib´ utumhalmazból indulna ki és minden lépésben egy attrib´ utumot dobna ki. A legközelebbi szomszéd módszer érzékeny a mértékegységre is. Ez logikus, hiszen a legközelebbi szomszéd módszer érzékeny a távolság defin´ıciójára, az pedig nagyban f¨ ugg az egyes attrib´ utumok mértékegységét˝ol. A problémát a 6.3 a´bra szemlélteti.


117

6.3. a´bra. Mértékegység hatása a legközelebbi szomszéd osztályozóra

Az egyik attrib´ utum jelölje egy ember hajhosszát az a´tlagtól, a másik attrib´ utum a bevételt jelöli dollárban. Az els˝o a´brán a hosszt méterben mérj¨ uk a másodikban pedig lábban. Az osztályozandó (zöld) ponthoz egy piros van a legközelebb az els˝o esetben, m´ıg a második esetben kék pont a legközelebbi. A példából következik, hogy a legközelebbi szomszéd módszer nem skálainvariáns. Az eml´ıtett problémák nem feltétlen¨ ul az osztályozó hibái. A legközelebbi szomszéd a távolságf¨ uggvény központi szerepet játszik. A helyes távolságf¨ uggvény meghatározásához válasszuk ki a fontos attrib´ utumokat, normalizáljuk, ha sz¨ ukséges, illetve fontosságuk alapján s´ ulyozzuk o˝ket. A k-legközelebbi szomszéd egy módos´ıtását s´ ulyozott legk¨ ozelebbi szomszéd m´ odszernek h´ıvják. Ebben a k szomszéd minden tagjának akkora a s´ ulya, amekkora az osztályozandó ponttól vett távolságának inverze (vagy valamilyen antimonoton f¨ uggvénye). Az osztályozandó ponthoz közel fekv˝o tan´ıtópontoknak tehát nagyobb szavuk van a végs˝o osztály meghatározásában, mint a távolabb es˝o pontoknak. Weka

3.5.7

A legk¨ ozelebbi szomszéd m´ odszerét (teh´ at amikor csak egy szomszédot vesz¨ unk figyelembe) a weka.classifiers.lazy.IB1 oszt´ aly implement´ alja. Két pont t´ avols´ ag´ anak meghat´ aroz´ as´ an´ al az euklideszi norm´ at haszn´ alja. Ha t¨ obb legk¨ ozelebbi pontja van egy oszt´ alyozand´ o pontnak, akkor az els˝ oként megtal´ alt alapj´ an fog oszt´ alyozni.

6.3.3. Az oszt´ alyoz´ as felgyors´ıt´ asa Egy u ´ j elem osztályozásánál meg kell határoznunk a k-legközelebbi szomszédot. Ez a teljes adatbázis egyszeri, lineáris végigolvasását jelenti. A mai szám´ıtógépes architekt´ uráknak kedvez ez a feladat. A tan´ıtópontok elférnek a memóriában és a prefetch ill. pipeline technikák nagyban gyors´ıtják a keresést. Talán ez az oka, hogy teszteredmények szerint a kifinomultabb, bonyolultabb módszerek is legfeljebb egy nagyságrendet vernek a lineáris módszerre.


118

6.4. a´bra. Tartományok meghatározása KD-fa ép´ıtéséhet (bal oldali a´bra) és a KD-fa (jobb oldali a´bra)

A 70-es évekt˝ol egyre több ´ırás sz¨ uletett, amelynek témája a lineáris módszernél gyorsabb algoritmus kidolgozása. Az u ´ j módszerek a´ltalában az u ´ n. branch-and-bound technikát alkalmazzák, melynek során a tan´ıtó pontok terét felosztják és csak bizonyos részeket vizsgálnak a keresés során. Az el˝ofeldolgozási lépésben gy´ urnak valamit az adatbázison, a´ltalában egy speciális adatstrukt´ urába tárolják a tan´ıtópontokat. Amennyiben a tan´ıtás során egyetlen numerikus attrib´ utumot vesz¨ unk figyelembe, akkor ha, mint el˝ofeldolgozás, sorba rendezz¨ uk az adatokat (O(n log n) id˝o alatt), akkor a legközelebbi szomszédok meghatározásához O(log n) lépés elég. Futási id˝o szempontjából azonos asszimptotikával rendelkez˝o algoritmus adtak két magyarázó változó esetében [13]. Több magyarázó attrib´ utum esetén (nagyobb dimenzióknál) a legismertebb módszer KDfákat használ [16]. Az algoritmus az el˝ofeldolgozás során a teret hipertéglatestekre osztja, egyes téglatesteket pedig további téglatestekre. A hipertéglatestek oldalai párhuzamosak egymással és a tengelyekkel és egy téglatest kettéosztása mindig egy az oldalfallal párhuzamos s´ık mentén való kettéosztást jelent. Egy téglatestet nem oszt tovább, ha a téglatestben található pontok száma adott korlát alatt van. A KD-fa bináris és minden csomópontjának megfelel egy hipertéglatest. A levelekhez hozzá vannak rendelve azok a tan´ıtópontok, amelyek a levél a´ltal meghatározott téglatesbe esnek. Tetsz˝oleges csomópont gyermekeihez tartozó hipertéglatest a csomóponthoz tartozó hipertéglatest kettéosztásából jött létre. A 6.4 a´brán néhány tan´ıtópont felosztása látható és a felosztáshoz tartozó KD-fa. Figyelem, a téglatestek a´ltal kijelölt terek nem osztályozási tartományoknak felelnek meg. A KD-fát használó algoritmus garantálja, hogy tényleg a legközelebbi szomszédokat fogja megtalálni. Osztályozásnál nem csak azokat a tan´ıtópontokat veszi figyelembe, amelyek abban a téglatestben vannak, amelyet az osztályozandó pont kijelöl. Az osztályozás menete a következ˝o : A fa cs´ ucsából kiindulva jussunk el addig a levélig, amely téglatestje tartalmazza az osztályozandó pontot. Határozzuk meg a legközelebbi pontot. Amennyiben a legközelebbi pont közelebb van, mint bármelyik oldalfal – másképp fogalmazva, az osztályozandó pontból a legközelebbi ponttól vett távolsággal rajzolt hipergömb nem metsz oldalfalat –,


119

akkor leállunk. Ellenkez˝o esetben meg kell vizsgálni azt a hipertéglatestet, amely fala közelebb van, mint a legközelebbi pont. Ez a téglatest ugyanis tartalmazhat olyan pontot, amely közelebb van az eddig talált legközelebbi ponthoz. A vizsgálandó téglatest nem biztos, hogy az osztályozandó pont a´ltal kijelölt téglatest szomszédja a KD-fában. Lehet unokatestvér, vagy sokadrang´ u unokatestvér. Vegy¨ uk észre, hogy az egyszer˝ u konstrukció következtében (érts oldalfalak párhuzamosak a tengelyekkel) nagyon gyorsan el tudjuk dönteni, hogy egy adott téglatestnek lehet-e olyan pontja, amely egy adott ponttol, adott távolságnál közelebb van. A KD-fa ép´ıtésénél két cél lebeg a szem¨ unk el˝ott : I. A fa legyen kiegyens´ ulyozott, abban a tekintetben, hogy minden téglatest ugyanannyi tan´ıtópontot tartalmaz. Ez azért jó, mert ha ki tudunk zárni egy téglatestet a vizsgálatból, akkor ezzel sok pontot szeretnénk kizárni II. A hipertéglalapok legyenek kockák. Ekkor ugyanis nem fordulhat el˝o, hogy az osztályozandó pont a´ltal kijelöl téglatesttel nem érintkez˝o téglatest tartalmazza a legközelebbi szomszédot. Az elny´ ujtott téglatestek nem kedveznek az algoritmusnak. Habár a második elvárásnak nem biztos, hogy eleget tesz a következ˝o egyszer˝ u módszer, mégis a gyakorlatban jó eredményt ad. Ki kell jelölni a fal tengelyét, majd meg kell határozni a helyét. A tengely kijelöléséhez nézz¨ uk meg mekkora a szórás az egyes tengelyekre nézve. Legyen a fal a legnagyobb szórást eredményez˝o falra mer˝oleges. A fal helyét pedig a medián határozza meg, ´ıgy garantált hogy a pontok egyik fele az egyik téglatestbe a másik fele a másik téglatestbe fog ker¨ ulni. A KD-fánál vannak u ´ jabb adatstrukt´ urák, ezek köz¨ ul a legismertebbek a Metric tree (Ball tree)[126, 175] és a Cover Tree [19]. A [94] cikkben a szerz˝ok azonban azt a´ll´ıtják, hogy ezek ´ ıtásaikat a szerz˝ok az u ´ j módszerek nem mutatnak számottev˝o javulást a KD-fához képest. All´ számos teszt eredményére alapozzák, melyhez felhasználtak valódi és generált adatbázisokat is. Weka 3.5.7 A k-legközelebbi szomszéd futtatásához k > 1 esetén haszn´ aljuk a weka.classifiers.lazy.IBk oszt´ alyt. A KNN paraméter felel meg a k értéknek, amelyet nem kell feltétlen¨ ul megadnunk. A weka a leave-one-out m´ odszerrel (l´ asd a 152 oldal) megpr´ ob´ alja a megfelel˝ ok értéket meghat´ arozni, amennyiben a crossValidate értéke igaz. Haszn´ alhatjuk a s´ ulyozott legk¨ ozelebbi szomszéd m´ odszert is (l´ asd a 117). Ekkor v´ alasztanunk kell a distanceWeighting paraméterrel, hogy a s´ uly a t´ avols´ ag reciproka, vagy 1-t˝ ol vett k¨ ul¨ onbsége adja. A nearestNeighbourSearchAlgorithm kiv´ alaszt´ oval megadhatjuk, hogy a legk¨ ozelebbi szomszédok meghat´ aroz´ as´ ahoz milyen m´ odszert/adatstrukt´ urát haszn´ aljon a weka. Az alapértelmezett az egyszer˝ u line´ aris keresés, de v´ alaszthatunk KD-fa, Ball tree és Cover tree alap´ u megold´ asok k¨ oz¨ ul.


120

6.5. a´bra. Példa lineárisan szeparálható osztályokra

6.4. Line´ arisan szepar´ alhat´ o oszt´ alyok Két osztály lineárisan szeparálható, ha egy hipers´ık seg´ıtségével el tudjuk k¨ ulön´ıteni a két osztály pontjait. Amennyiben minden pont n dimenzióban van megadva, akkor n−1 dimenziós hipers´ıkot kell meghatároznunk. Ennek a hipers´ıknak a képlete : w1 a1 + w2 a2 + . . . + wn an = 0. Az osztályozás feladata a w s´ ulyok meghatározása. Ha ez megvan, akkor jöhet az u ´ j elemek osztályozása. Határozzuk meg az u ´ j elem attrib´ utumainak w értékekkel történ˝o s´ ulyozott o¨sszegét. Ha az o¨sszeg nagyobb nulla, akkor az els˝o osztályba tartozik, ellenkez˝o esetben a másodikba. Kategória t´ıpus´ u magyarázó attrib´ utum esetén az értékeket 0,1, . . . számokkal szokás helyettes´ıteni. Lineárisan szeparálható osztályokra láthatunk példát a 6.5 a´brán. A példából is látszik, hogy adott tan´ıtóponthoz több hipers´ık is létezhet, amellyel kettéválaszthatjuk az osztályokat. A logisztikus regressziónál és az SVM osztályozónál fog felmer¨ ulni az a kérdés, hogy melyik hipers´ık választja el a legjobban a két osztályt, azaz melyik az a s´ık amelyik jól szeparál és amelyt˝ol legtávolabb vannak a pontok. ´ attMennyire er˝os megkötés, hogy az osztályok lineárisan szeparálhatók legyenek ? Uj rib´ utumok bevezetésével, amelyek az eredeti attrib´ utumok nemlineáris transzformáltjai olyan térbe ker¨ ulhet¨ unk, amelyben már lehet lineáris szeparálást végezni. Amennyiben minden attrib´ utum bináris és 0-1 értékeket vehet fel, akkor a 6.6 a´bra jól mutatja, hogy az AND, OR, NOT f¨ uggvények lineárisan szeparálható osztályokat hoznak létre. Sajnos ugyanez nem mondható el az XOR f¨ uggvényre. Tehát már egy ilyen egyszer˝ u logikai f¨ uggvényt, mint az XOR sem tud megtanulni egy lineáris osztályozó. A neurális hálózatoknál vissza fogunk térni az XOR kérdéséhez. Látni fogjuk, hogy a neurális hálózatok, már tetsz˝oleges logikai f¨ uggvényt képesek megtanulni. A perceptron és a Winnow módszereket fogjuk el˝oször szem¨ ugyre venni. Ezek kiindulnak a kezdetben konstans értékeket (perceptronnál nulla, Winnownál egy) tartalmazó s´ ulyvektorból és a tan´ıtópontok hatására a s´ ulyvektort addig módos´ıtják, am´ıg minden pontot jól szeparál a s´ ulyvektor. A módszerek el˝onye, hogy jól használható online környezetben is, ahol néha u ´j tan´ıtópont érkezik, amely hatására módos´ıtanunk kell a s´ ulyvektort. Ismertetj¨ uk még a Rocchio-eljárást, amely habár nem a´ll´ıt el˝o szeparáló hipers´ıkot mégis lineáris szeparálást hajt végre. Vég¨ ul elmélyed¨ unk a logisztikus regreszió rejtelmeiben.


AND

121

OR

NOT

XOR

6.6. a´bra. AND, OR, NOT logikai f¨ uggvények tanulása, XOR f¨ uggvény

6.4.1. Perceptron tanul´ asi szab´ aly A perceptron tanulási szabály a mesterséges neurális hálók o˝sének tekinthet˝o. Mind az n attrib´ utumnak valósnak kellene lenni¨ uk. A hipers´ık dimenziója n+1 lesz, Mind az n attrib´ utumnak valósnak kell lenni¨ uk. A hipers´ık dimenziója n + 1 lesz, Mind az n attrib´ utumnak valósnak kell lenni¨ uk. A hipers´ık dimenziója n + 1 lesz, ugyanis fel kell venn¨ unk egy extra attrib´ utumot (az angol irodalomban ezt bias-nak h´ıvják), amelynek értéke minden tan´ıtó pontnál egy lesz. A módszer le´ırása alább olvasható. Algorithm 7 Perceptron tanulási szabály Require: T : tan´ıtópontok halmaza

w ~ = (0,0, . . . ,0) while van rosszul osztályozott t ∈ T do for all minden ~t ∈ T do if ~t rosszul van osztályozva then if ~t az els˝o osztályba tartozik then w ~ =w ~ + ~t else w ~ =w ~ − ~t end if end if end for end while

Amennyiben az algoritmus során rosszul osztályozott ponttal találkozunk, akkor a u ´ gy módos´ıtjuk a hipers´ıkot, hogy a rosszul osztályozott tan´ıtó pont közelebb ker¨ ul hozzá, s˝ot akár a´t is ker¨ ulhet a s´ık másik oldalára. Ha egy rosszul osztályozott tan´ıtó pontP az els˝o oszt´ Palyba tartozik, akkor az attrib´ utum értékeinek s´ ulyozott o¨sszege a módos´ıtás során wi ti -r˝ol (wi + + ti )ti -re változik. A k¨ ulönbség, négyzetösszeg lévén, biztosan pozit´ıv. A hipers´ık a módos´ıtás során helyes irányba mozgott. A hipers´ık módos´ıtásai egymásnak ellentétesek lehetnek (olyan, mintha a tan´ıtópontoktól jobbról és balról kapná a pofonokat), de szerencsére biztosak lehet¨ unk benne, hogy a sok


122

módos´ıtásnak el˝obb-utóbb vége lesz : 6.1. lemma. Perceptron tanul´ asi algoritmus véges lépesen bel¨ ul le´ all, amennyiben az oszt´ alyok line´ arisan szepar´ alhat´ ok. Hátrány, hogy ha a tan´ıtó pontok nem szeparálhatóak lineárisan, akkor az algoritmus nem a´ll le. A gyakorlatban ezért egy maximális iterációs számot adnak meg, amelynek elérésekor sikertelen u ¨ zenettel leáll az algoritmus.

6.4.2. Winnow m´ odszer Winnow módszerét akkor alkalmazhatjuk, ha minden attrib´ utum bináris. Az eltérés a perceptron tanulástól annyi csak, hogy a rossz osztályozás esetén a s´ ulyvektorhoz nem hozzáadjuk a tan´ıtópont vektorát, hanem a s´ ulyvektor bizonyos elemeit megszorozzuk vagy eloszjuk α > 1 konstanssal, attól f¨ ugg˝oen, hogy melyik csoportba tartozik. Akkor sorol az osztályozó egy ~a pontot az els˝o osztályba, ha w1 a1 + w2 a2 + . . . + wn an > Θ, ahol Θ el˝ore megadott konstans. A szorzást vagy osztást azokra a poz´ıciój´ u elemre végezz¨ uk, amelyre a tan´ıtópont vektora egyest tartalmaz. Mivel α pozit´ıv és a kezdeti s´ ulyvektor minden eleme egy, ezért a s´ ulyvektor minden eleme mindig pozit´ıv marad. Vannak alkalmazások, ahol negat´ıv s´ ulyokat is meg kell engedni. Ekkor a kiegyens´ ulyozott Winnow (balanced Winnow) módszert alkalmazhatjuk. Két s´ ulyvektort tar+ − + − tunk karban (w ~ ,w ~ ). Az osztályozáshoz a w ~ −w ~ vektort használjuk. A rossz osztályozás + ~ esetén a w -t ugyan´ ugy módos´ıtjuk, mint a Winnow alapverziójánál, a w ~ − elemeit pedig pont + − ellenkez˝oképpen, amikor w i -t szorozzuk α-val, akkor a w i -t osztjuk vele. Weka 3.5.7 A Winnow, illetve a kiegyensúlyozott Winnow m´ odszert a wek´ aban a weka.classifiers.functions.Winnow oszt´ aly implement´ alja. A balanced paraméter igazra a ´ll´ıt´ as´ aval adhatjuk meg, ha kiegyens´ ulyozott Winnow m´ odszert szeretnénk alkalmazni. A s´ ulyok kezdeti értékét a defaultWeight paraméterrel, az iter´ aci´ ok sz´ am´ at a numIterations paraméterrel szab´ alyozhatjuk. A Θ paraméter a wek´ aban a treshold paraméternek felel meg.

6.4.3. Rocchio-elj´ ar´ as A Rocchio-elj´ ar´ as klasszikus módszernek szám´ıt az információ-visszakeresés ter¨ uletén. Osztályozási feladatra el˝oször a [79] munkában adaptálták, és azóta is sok kutatás foglalkozott vele (ld. [154]. Az eljárás feltételezi, hogy minden attrib´ utum valós t´ıpus´ u. Minden c kategóriához megalkotunk egy protot´ıpusvektor t, amit a Dc tanulópéldák a´tlagaként szám´ıtjuk ki (centroid), és ehhez hasonl´ıtjuk az ismeretlen dokumentum vektorát. Az osztályozandó objektum és egy kategória protot´ıpusvektorának távolságát koszinusz- vagy más távolságmértékkel számolhatjuk.


123

X

6.7. a´bra. Példa a Rocchio rossz osztályozására

A módszernek kicsiny a szám´ıtásigénye, ezért a tanulás nagyon gyors. Hátránya viszont, hogy rossz eredményt ad, ha az egy osztályba tartozó pontok nem jellemezhet˝ok egy vektorral (pl. am˝oba alap´ u csoportok, vagy két, egymástól jól elk¨ ulön¨ ul˝o, csoporthalmaz, amelynek elemei ugyanabba a kategóriába tartoznak). Ezt szemlélteti a 6.7 a´bra. Az u ¨ res körök az els˝o, a feketével töltött körök a második osztályba tartoznak. Az els˝o osztály protot´ıpusvektora távol esik az u ¨ res körökt˝ol. Az x-szel jelölt osztályozandó pontot a Rocchio az els˝o osztályba sorolná a második helyett. A módszer hatékonysága lényegesen jav´ıtható, ha a protot´ıpusvektorok megalkotásánál a negat´ıv tanulóadatokat is figyelembe vessz¨ uk. Ekkor a X X d~j (6.3) d~j − γ · ~c = β · j6∈Dc

j∈Dc

képlettel szám´ıtható a c protot´ıpusvektora3 . Ha a második tagban nem az o¨sszes negat´ıv tanulópéldát, hanem csak a majdnem pozit´ıv tanulópéldák a´tlagát vessz¨ uk — ezek ugyanis azok, amelyekt˝ol a legnehezebb megk¨ ulönböztetni a pozit´ıv tanulóadatokat, akkor további lényeges hatékonysági javulás érhet˝o el [150, 182].

6.4.4. Line´ aris regresszi´ o Utazzunk vissza az id˝oben, jussunk el az alapokig, azon bel¨ ul a lineáris regresszióig. Tessz¨ uk ezt azért, mert a kifinomultabb, fejlettebb módszerek a lineáris regresszióból indulnak, illetve azért, mert ha lineárisan szeparálható osztályokkal van dolgunk, akkor a lineáris regressziót felhasználhatjuk a feladat megoldásához. A lineáris regresszió csak abban az esetben használható, ha minden attrib´ utum valós t´ıpus´ u. Feltételezz¨ uk, hogy az X magyarázó változó n dimenziós, és a magyarázandó Y változóval lineáris kapcsolatban a´ll : Yˆ = βˆ0 +

n X

Xj βˆj

j=1

3

A pontok centroidjaként sz´ amolt protot´ıpusvektort a β = 1, γ = 0 paraméterek mellett kapjuk meg.


124

A βˆ0 értéket biasnak h´ıvják. Amennyiben felvesz¨ unk egy extra dimenziót és minden pont ezen dimenziója 1, akkor a vektoros fel´ırást használva tovább egyszer˝ us´ıthetj¨ uk a képletet : ˆ Yˆ = X T β, ahol a T fels˝oindex a mátrix transzponálásnak felel meg. A βˆ oszlopvektort kell meghatároznunk u ´ gy, hogy adott tan´ıtópontok (xi , yi párok) mellett négyzetes hibaösszeg minimális legyen. |T| X i=1

(yi − xTi β)2 .

A fenti f¨ uggvény a β-ban négyzetes, ´ıgy minimuma mindig létezik és egyértelm˝ u. Amennyiben a tan´ıtópontokat egy |T|×n-es X mátrixszal a´brázoljuk (a tan´ıtópontokhoz tartozó y értékeket pedig az y oszlopvektorral), akkor a fenti f¨ uggvényt a´t´ırhatjuk más formába : (y − Xβ)T (y − Xβ) Ennek β szerinti deriváltja : −2XT y + 2XT Xβ Ha a deriváltat egyenl˝ové tessz¨ uk nullával, akkor egyszer˝ us´ıtés után a következ˝ohöz jutunk : XT (y − Xβ) = 0 amelyb˝ol nemszingularitást feltételezve kapjuk, hogy βˆ = (XT X)−1 XT y. Weka

3.5.7

A weka.classifiers.functions.SimpleLinearRegression oszt´ aly egyetlen attrib´ utum szerinti line´ aris regresszi´ ot hajt végre. Azt az attrib´ utumot v´ alasztja, amely a legkisebb négyzetes hib´ at adja. Csak sz´ am t´ıpus´ u attrib´ utumokkal tud dolgozni és hi´ anyz´ o értékeket nem enged meg. A weka.classifiers.functions.LinearRegression oszt´ aly szintén line´ aris regresszi´ ot hajt végre, de ez m´ ar t¨ obb attrib´ utumot is figyelembe tud venni. Lehet˝ oség van a regresszi´ oba felhaszn´ aland´ o attrib´ utumok automatikus kiv´ alaszt´ as´ ara is az attributeSelectionMethod paraméterrel. A négyzetes hib´ ak a ´tlaga (amely ugyanazt az eredményt adja, mintha az o ¨sszeget minimaliz´ aln´ ank) helyett a medi´ ant pr´ ob´ alja minimaliz´ alni a weka.classifiers.functions.LeastMedSq oszt´ aly.

Lineáris regresszióra visszavezethet˝o számos nemlineársi kapcsolat is. Például az y = ax b f¨ uggvény logaritmusa log x és log y-ra nézve lineáris kapcsolatot ad. Hasonlóan egyszer˝ u transz1 formációval kezelhet˝o az y = a+bx f¨ uggvény is.


125

6.4.5. Logisztikus regresszi´ o Ha a lineáris regressziót osztályozásra akarjuk használni (de a magyarázó változók továbbra is valós számok), akkor az egyes osztályoknak egy valós számot kell megfeleltetn¨ unk. Bináris osztályozásnál a nullát és az egyet szokás használni. Ezzel azonban nem oldottuk meg a problémát. A lineáris regresszió egy tan´ıtópont osztályozásnál egy számot fog el˝oa´ll´ıtani és a hibát a tan´ıtópont ett˝ol a számtól vett k¨ ulönbségével definiálja. Tehát egyes t´ıpus´ u tan´ıtópont esetén ugyanakkora lesz a hiba nulla és kett˝o kimenetek esetén. Ez nem t´ ul jó. Egy x oszlopvektorral le´ırt, pont osztályának jóslásánál meg kell határoznunk az x T β értéket. Amennyiben ez nagyobb, mint egy ketted, akkor az 1-eshez tartozó osztály a jóslás, ellenkez˝o esetben pedig a nulláshoz tartozó osztály. Az egyszer˝ uség kedvéért jelölj¨ uk az x T β −0.5 értéket yˆ-nal. S˝ot, a könnyebb jelölés érdekében a xT β szorzatot jelölj¨ uk yˆ-nal és emlékezz¨ unk rá, hogy a 0.5-öt belegy´ urtuk a β0 torz´ıtás értékbe. Az a f¨ uggvény, amely nullánál kisebb értékekre 0-át ad, nagyobbakra pedig 1-et eléggé hasonl´ıt az el˝ojel (szignum) f¨ uggvényre. Ha megengedj¨ uk, hogy értelmetlen eredményt kapjunk yˆ = 0 esetében – amelyet értelmezhet¨ unk u ´ gy, hogy az osztályozó nem képes dönteni –, akkor a jóslást megkaphatjuk az 1 + sgn(ˆ y) (6.4) 2 kiszám´ıtásával. Ha ´ıgy definiáljuk a kimenetet, akkor a hiba defin´ıciója is megváltozott és a lineáris regresszió nem használható a β vektor meghatározásához. Egyenl˝ore most maradjunk annál, hogy egy mágus adott nek¨ unk egy jól szeparáló hipers´ıkot. Tudunk-e a´rnyaltabb kimenetet adni, mint pusztán egy osztály (nulla vagy egy) ? Minél közelebb vagyunk a szeparáló hipers´ıkhoz, annál bizonytalanabbak vagyunk a döntést illet˝oen. A hipers´ıkon lév˝o pontokra már egyáltalán nem tudjuk mit tegy¨ unk. Természetes gondolat hát, hogy az aktuális osztály jóslása helyett az osztály el˝ofordulásának valósz´ın˝ uségét jósoljuk adott bemenet esetén. Ehhez csak annyit kell tenn¨ unk, hogy a 6.4 f¨ uggvényt le” sim´ıtjuk”, azaz egy olyan f (ˆ y ) f¨ uggvénnyel helyettes´ıtj¨ uk, amely I. értéke 1-hez közel´ıt, ha yˆ tart végtelenhez, II. értéke 0-hoz közel´ıt, ha yˆ tart m´ınusz végtelenhez, III. f (0) = 0.5, IV. szimmetrikus nullára nézve, tehát f (ˆ y ) + f (−ˆ y ) = 1 = 2f (0), V. sima”, azaz f (ˆ y ) differenciálható minden pontban és ” VI. monoton növ˝o (vagy ne legyen lokális széls˝o érték). Az ilyen f¨ uggvényeket nevezz¨ uk szigmoid f¨ uggvényeknek. Sok f¨ uggvény megfelel a fenti elvárásoknak. Könny˝ u belátni, hogy az 1/(1+a −ˆy ) f¨ uggvények a > 1 esetében az elvárások tekintetében renden vannak. Amennyiben a = e, akkor az u ´ n. logisztikus f¨ uggvényt kapjuk 1 , (6.5) P(Y = 1|X) = 1 + e−ˆy


126

1.5 (1+sgn(x))/2 1/(1+exp(-x)) 1/(1+20**(-x)) 1/(1+1.5**(-x)) normalis eloszlas

1

0.5

0

-0.5 -10

-5

0 x

5

10

6.8. a´bra. az eltolt el˝ojelf¨ uggvény és néhány sim´ıtása” ” x ) ) logit f¨ uggvénynek h´ıvják. A logisztikus f¨ uggvény A logisztikus f¨ uggvény inverzét (ln( 1−x szépsége, hogy a deriváltja f (ˆ y)(1 − f (ˆ y )), amely a mi eset¨ unkben P(Y = 1|X)P(Y = 0|X)-el egyezik meg. Más f¨ uggvények is esz¨ unkbe juthatnak. Valósz´ın˝ uségi változók eloszlásf¨ uggvénye is nullából indul m´ınusz végtelenben és egyhez tart a végtelenben. A harmadik és negyedik feltétel (f (0) = = 0.5, f (ˆ y )+f (−ˆ y )) megk´ıvánja, hogy a s˝ ur˝ uségf¨ uggvény szimmetrikus legyen, azaz az f 0 (x) = = f 0 (−x) teljes¨ uljön minden x valós számra. A nulla várható érték˝ u normális eloszlás eloszlásf¨ uggvénye megfelel a feltételeknek. Az el˝ojelf¨ uggvény eltolt változatát, a 1/(1 + a−ˆy ) t´ıpus´ u f¨ uggvényeket k¨ ulönbözö a-kra és a normális eloszlásf¨ uggvényt a 6.8 a´bra mutatja. Ezzel el is jutottunk a logisztikus regresszió feladatához. Szemben a lineáris regresszióval, P(Y =1|X) lineáris kapcsolat nem X és Y között van, hanem ln( 1−P(Y ) és xT β között, tehát =1|X)

P(Y = 1|X) =

1 , 1 + e−X T β

(6.6) T

e−X β P(Y = 0|X) = 1 − P(Y = 1|X) = . 1 + e−X T β Meg kell határozni azt a βˆ értéket, amelyik a legkisebb hibát adja. input x0 x1

.. .

súlyok w0 w1 wn

(6.7)

konstans

c

Σ szumma

f nemlinearitás

xn

6.9. a´bra. Logisztikus regresszió

output


127

Sajnos a βˆ érték meghatározására nincs olyan szép zárt képlet, mint ahogy a lineáris regresszió esetében volt. Iterat´ıv, közel´ıt˝o módszert használhatunk, amely gradiensképzésen alapul. A hiba minimalizálása helyett a feltételes valósz´ın˝ uségeket maximalizáljuk : βˆ ← argmaxβ

|T| X i=1

ln P(y i |xi , β).

A fenti képletbe a regressziós f¨ uggvény a szokásos P(Y i |X i ) helyett P(Y i |X i , β), hiszen β most nem mint konstans játszik, hanem mint változó. Felhasználva, hogy az y csak nulla vagy egy értéket vehet fel, a maximálandó f¨ uggvényt a´t´ırhatjuk : X l(β) = y i ln P(y i = 1|xi , β) + (1 − y i) ln P(y i = 0|xi , β). i

Kiindulunk valamilyen szabadon megválasztott β (0) vektorból, majd a k-adik lépésben a β (`) vektorhoz hozzáadjuk a δl(β) vektor λ-szorosát, ´ıgy megkapjuk a β (`+1) vektort. A λ egy el˝ore δβ

megadott konstans, amelynek értékét 0.01-re szokták a´ll´ıtani. A deriváltakból a´ll : |T| δl(β) X i i ˆ i = xj y − P(y = 1|xi , β) , δβj i=1

δl(β) δβ

vektor a

δl(β) δβj

parciális

ˆ i = 1|xi , β) a logisztikus regresszió a´ltal adott jóslás. Az y i − P(y ˆ i = 1|xi , β) tag a hibát ahol P(y ragadja meg, amely meg van szorozva egy nagyság jelleg˝ u tényez˝ovel. Az x ij érték adja meg a jóslásban a βj szerepének nagyságát (gondoljunk itt a βj xji s´ ulyozott o¨sszegre). Az l(β) konkáv ezért a gradiens módszer a globális maximumhoz fog konvergálni. A gyakorlat azt mutatja, hogy a konvergencia igen gyors, a βj értékek néhány iteráció után már alig-alig változnak. Weka 3.5.7 Logisztikus weka.classifiers.functions.Logistic weka.classifiers.functions.SimpleLogistic lement´ alj´ ak.

regresszi´ ot és f¨ uggvények

a a imp-

Felmer¨ ulhet a kérdés, hogy minek vacakolunk itt mi a logisztikus regresszióval, amikor lineárisan szeparálható osztályokra van már egyszer˝ u megoldásunk (értsd perceptron tan´ıtási szabály). S˝ot a logisztikus regresszióban használt gradiens módszer lass´ u eljárás sok tan´ıtópont esetén. A helyzet az, hogy a logisztikus regresszió zajos környezetben is jól m˝ uködik, tehát amikor egy-egy pont a´tker¨ ul a rossz oldalra. Ilyenkor a Perceptron tanulási szabály és a winnow algoritmus nem a´ll le (csak ha nyomunk rajta egy STOP gombot). További el˝onye a logisztikus regressziónak, hogy ha az osztályok lineárisan szeparálhatóak, akkor nem csak egy elég jó” ” hipers´ıkot talál, hanem megtalálja a legjobbat (a legkisebb négyzetes hibát eredményez˝ot). Gondoljuk meg, ha csak két tan´ıtópont adott a s´ıkon, akkor a két pontot o¨sszeköt˝o szakasz felez˝o mer˝olegese lesz a szeparáló egyenes.


128

Logisztikus regresszi´ o´ altal´ anos oszt´ alyoz´ asn´ al Az eddigiekben feltett¨ uk, hogy bináris osztályozással van dolgunk. Mit tudunk tenni akkor, ha az magyarázandó attrib´ utum k > 2 értéket vehet fel ? A többválasz´ u logisztikus regresszió (multiresponse logisztic regression) a fent eml´ıtett logisztikus regressziót alkalmazza k-szor. Veszi az els˝o osztályt és a többit egy kalap alá vonva végrehajt egy logisztikus regressziót. Ez ad egy valósz´ın˝ uséget. Ezután a második osztályt emeli ki és az o¨sszes többi osztályt vonja egy kalap alá. Így az o¨sszes osztáyhoz meg tud határozni egy valósz´ın˝ uséget. Mintha csak egy tagsági f¨ uggvényt próbálna meghatározni. ´ Uj elem osztályozásánál az osztályzó arra az osztályra teszi le a voksát, amelyik a legnagyobb valósz´ın˝ uséget kapta. Ha csak a jósolt osztály érdekel minket és a kapott valósz´ın˝ uségre nem vagyunk k´ıváncsiak, akkor nem sz¨ ukséges a logisztikus f¨ uggvény alkalmazása. Mivel a logisztikus f¨ uggvény monoton növ˝o, ezért meg˝orzi a sorrendet. A kapott valósz´ın˝ uségeknek az o¨sszege nem feltétlen¨ ul ad egyet. Ezért a fenti módszer helyett csak k − 1 darab β vektort a´ll´ıtsunk el˝o u ´ gy, hogy minden ` = 1, . . . , k − 1-re `

P(Y = `|X) = és P(Y = k|X) =

1+

eβ0 +yˆ` Pk−1

1+

`0 =1

1 Pk−1

`0 =1

yˆ`0

,

yˆ`0

ahol yˆ` = xT β ` . A gradiens módszernél alkalmazott vektor, amely λ-szorosát hozzá kell adni az aktuális β vektorhoz a következ˝o |T| X i=1

ˆ i = y` |xi , β) , xij δ(y i = `) − P(y

ahol δ(y i = `) = 1, ha az i-edik tan´ıtópont osztálya `, k¨ ulönben 0. A logisztikus regresszió és a bayesi osztályozó kapcsolatáról a 6.8 részben szólunk.

6.5. Mesters´ eges neur´ alis h´ al´ ozatok A logisztikus regresszió modelljét egyréteg˝ u mesterséges neurális hálózatnak is nevezik, sejthetj¨ uk, hogy ez az alapja a komolyabb” mesterséges neurális hálózatóknak. ” Egy darab logisztikus regresszió elemmel nem sok mindent tudunk kezdeni. Mivel lineáris osztályozó, ezért meg tudja tanulni az és, a vagy továbbá a nem logikai f¨ uggvényeket, de nem tudja megtanulni az xor f¨ uggvényt. Három logisztikus regresszió felhasználásával azonban az xor -t is ki tudjuk fejezni. Idézz¨ uk fel, hogy a és f¨ uggvényt a x1 +x2 −1.5, a vagy-ot a x1 +x2 − −0.5 egyenes, a nem-et x2 −0.5 egyenesek szeparálják (lásd a 6.6 a´bra). Az xor f¨ uggvény pedig fel´ırható, mint (x1 ∨ x2 ) ∧ (x1 ∧ x2 ). A 6.10 a´bra ezt a konstrukciót mutatja. A fels˝o szignum f¨ uggvényhez tartozó logisztikus regresszió az és-t, a bal alsó a vagy-ot a jobb alsó pedig a nem és-t adja vissza. Az ép´ıt˝oelemeket ismerve tetsz˝oleges logikai formulát kifejezhet¨ unk logisztikus regressziók o¨sszekapcsolásával, ezért a logisztikus regressziók kapcsolata univerzális


129 sigm 1

1

sigm 1

-1 1

x1

-1.5 x0

sigm -1

-0.5 1.5

x2

x0

6.10. a´bra. xor f¨ uggvény logisztikus regressziók o¨sszekapcsolásával f¨ uggvényapproximátornak tekinthet˝o. Ebb˝ol a tényb˝ol származik a neurális hálózatok elmélete. A mesterséges neuronhálózatok – némileg az agym˝ uködést utánzó biológiai analógiára is támaszkodva – a logisztikus regressziók kapcsolata. A legnépszer˝ ubb modell a többréteg˝ u el˝orecsatolt neuronhálózat (lásd 6.11. a´bra). Az els˝o réteg csomópontjaiban (neuronok) az input (magyarázó változók, 1-3. neuronok) helyezkedik el, az outputot (magyarázott változókat) a legutolsó réteg kimenete (6. neuroné) adja. A közbens˝o rétegeket rejtett (hidden) rétegeknek (4-5. neuronok) nevezz¨ uk. Minden réteg minden neuronjának kimenete a következ˝o réteg o¨sszes neuronjának bemenetével kapcsolatban a´ll. A kapcsolat szorosságát w ij s´ ulyok jellemzik. (A 6.11. a´brában 4-6. neuronok helyébe egy 6.9. a´bra szerinti logisztikus regressziót kell képzelj¨ unk.) x1

1

w14 4

x2

46

6

2 5

x3

w

3

w56

w35

6.11. a´bra. Többréteg˝ u el˝orecsatolt neurális hálózat Mind a logisztikus regresszió, mind a neurális hálózatok paramétereikben nem lineáris f¨ uggvény-approximátornak tekinthet˝ok. A tapasztalatok és az elméleti eredmények (lásd. : [63]) szerint is ugyanannyi paramétert (s´ ulyt) használva nemlineárisan paraméterezett f¨ uggvényekkel gyakran jobb közel´ıtést érhet¨ unk el, mint lineárisan paraméterezett társaikkal. Az alkalmas s´ ulyokat nemlineáris optimalizációs technikával, gradiens módszerrel kereshetj¨ uk meg szinte ugyan´ ugy, mint a logisztikus regressziónál tett¨ uk. A gradiens eljárások alapelve, hogy egy f¨ uggvény maximum / minimum helyét u ´ gy keresik meg, hogy egy kezd˝opontból kiindulva a gradiens (derivált) irányában / a gradienssel ellentétes irányban mozdulunk el, majd az eljárást ismétlik. Az el˝orecsatolt topológiának köszönhet˝oen az egész neuronháló hibaf¨ uggvényének w s´ ulyok szerinti gradiensét könnyen kiszám´ıthatjuk. A s´ ulyok megtalálása a tan´ıtó példák alapján az


130

u ´ n. backpropagation (hiba visszaterjedés) eljárás szerint zajlik : I. Az inputokból el˝orehaladva kiszám´ıtjuk az outputok eredményét. II. Az utolsó output rétegb˝ol rétegr˝ol rétegre visszafelé haladva a megfelel˝o gradiens szabály szerint módos´ıtjuk wij értékeket. Mivel a neuronháló a´ltal reprezentált f¨ uggvénynek lehetnek lokális maximumai ezért a módszer nem biztos, hogy a globális optimumot adja. A backpropagation eljárást ezért többször szokás futtatni k¨ ulönböz˝o kezdeti s´ ulyokkal. A neuronhálók hátrányaként eml´ıthet˝o, hogy a s´ ulyok rendszere közvetlen¨ ul nem értelmezhet˝o emberek számára. Nem tudjuk egyszer˝ uen megindokolni, hogy mi alapján hozta meg a neuronháló a döntést. Egy hálózat tulajdonképpen egy fekete doboznak tekinthet˝o a felhasználó szemszögéb˝ol. Sok ter¨ uleten nem elfogadható, ha egy módszer nem ad magyarázatot, ezért a neuronhálók alkalmazási köre er˝osen korlátozott. Ugyanakkor léteznek olyan eljárások, amelyek a neuronhálók s´ ulyaiból emberek számára érthet˝o, a döntéseket indokló szabályokat nyernek ki [73]. Egy városi legenda szerint a 80-as években az amerikai hadsereg szolgálatba akarta a´ll´ıtani a mesterséges intelligenciát és a szám´ıtástudományt. Céljuk volt minden tankra egy kamerát tenni, a kamera képét egy szám´ıtógépnek tovább´ıtani, amely automatikusan felismeri, ha ellenséges tank b´ ujik meg a közeli erd˝oben. A kutatók neurális hálózat alap´ u megközel´ıtés mellett döntöttek. A tan´ıtáshoz el˝oa´ll´ıtottak 100 darab olyan képet amelyen a fák mögött tank b´ ujt meg és 100 olyat, amelyen tank nem volt látható. Néhány iteráció után a hálózat tökéletesen osztályozta a képeket. A kutatók és a Pentagon munkatársai nagyon meg voltak elégedve az eredményekkel, ugyanakkor még maguk sem voltak biztosak abban, hogy a neurális hálózat valóban a tank koncepciót tanulta-e meg. F¨ uggetlen szakért˝okt˝ol kért verifikáció során azonban a háló rosszul szerepelt. A pontossága nem haladta meg egy teljesen véletlenszer˝ uen tippel˝o osztályozó pontosságát. Valaki aztán rájött a rossz szereplés okára. A tan´ıtó képeken az o¨sszes tankos képen borult volt az id˝o, a tank nélk¨ uli képeken pedig s¨ utött a nap. Ezt tanulta meg a háló. Nem lehet tudni, hogy ebb˝ol a városi legendából mennyi igaz, az azonban tény, hogy a neurális háló nem ad magyarázatot az osztályozás okára. Ez komoly hátrány például a pénz¨ ugyi világban. A befektet˝ok vonakodnak fekete doboz rendszerekre b´ızni a pénz¨ uket, akkor is, ha ezek nagyon jó eredményeket adnak a tesztek során. Weka 3.5.7 A backpropagation tan´ıtó módszert használó neurális h´ al´ ozatot a weka.classifiers.functions.MultilayerPerceptron oszt´ aly implement´ alja. A h´ al´ ozatot felép´ıthetj¨ uk kézzel vagy automatikusan. A neuronokban haszn´ alt nemlinearit´ as a szigmoid f¨ uggvény. Az oszt´ alynak sz´ amos paramétere van. A GUI paraméterrel bekapcsolhatunk egy grafikus interfészt, melyen kereszt¨ ul l´ athatjuk, illetve m´ odos´ıthatjuk a neur´ alis h´ al´ ozatot. Az autoBuild paraméter engedélyezésével a h´ al´ ozat automatikusan b˝ ov¨ ul tov´ abbi rejtett rétegekkel. A hiddenLayers paraméter adja meg a neur´ alis h´ al´ ozat rejtett rétegeinek a sz´ am´ at. Az attrib´ utumok el˝ ofeldolgoz´ as´ ara ad lehet˝ oséget a nominalToBinaryFilter paraméter. A kateg´ oria t´ıpus´ u attrib´ utumokat


131

bin´ aris t´ıpus´ uv´ a alak´ıtja (l´ asd 3.1 rész). Az attrib´ utumok normaliz´ al´ as´ at a normalizeAttributes paraméterrel tudjuk engedélyezni. A normalizeNumericClass paraméter az oszt´ alyattrib´ utumot normaliz´ alhatjuk, amennyiben az sz´ am t´ıpus´ u. A validationSetSize paraméter a teszthalmaz sz´ azalékos méretét adja meg. A tesztelés le´ all´ as´ at szab´ alyozza a validationThreshold. Ez az érték adja meg, hogy egym´ as ut´ an h´ anyszor romolhat a tesztelési hiba, miel˝ ott le´ allna a tan´ıt´ as.

6.6. D¨ ont´ esi szab´ alyok 6.2. defin´ıci´ o. Az A attrib´ utumhalmaz felett értelmezett d¨ ontési szab´ aly alatt olyan R :φ(A)→ Y = y logika implik´ aci´ ot ért¨ unk, amelyek feltételrészében attrib´ utumokra vonatkoz´ o feltételek logikai kapcsolatai a ´llnak, a k¨ ovetkezményrészben pedig az oszt´ alyattrib´ utumra vonatkoz´ o ´ıtélet. }ME ´RS´ Például a HO EKLET = magas AND SZ´ EL = nincs → ID} O J´ AT´ EKRA alkalmas egy döntési szabály, amely azt fejezi ki, hogy ha magas a h˝omérséklet és nincs szél, akkor az id˝o alkalmas k¨ ultéri játékra. A val´ osz´ın˝ uségi d¨ ontési szab´ alyokban a következményrészben az osztályattrib´ utumra vonatkozó valósz´ın˝ uségi eloszlás szerepel. Ilyen szabályra példa az autóbiztos´ıtás ter¨ uletér˝ol, hogy nem = f´ erfi AND gyerek sz´ ama = 0 AND aut´ o teljes´ ıtm´ eny > 150LE → kock´ azatos = (80%, 20%). A feltételrészben az e ´s, vagy és a negáció tetsz˝oleges kombinációját felhasználhatjuk . . . elvileg. A gyakorlatban ugyanis csak olyan szabályokkal foglalkoznak, amelyben egy alapfeltétel negációja és a feltételek e ´s kapcsolatai szerepelnek. Ez azért nem olyan nagy megszor´ıtás. Ha az azonos következményrésszel rendelkez˝o szabályokból egy szabályt kész´ıt¨ unk u ´ gy, hogy a feltételek vagy kapcsolatát képezz¨ uk, akkor elmondhatjuk, hogy a szabályok feltételrészében diszjunkt´ıv normál formulák a´llnak. Minden ´ıtéletlogikában megadott formula a´t´ırható diszjunkt´ıv normál formulává a dupla negáció eliminálásával, a de Morgan és a disztributivitási szabály alkalmazásával. 6.3. defin´ıci´ o. Az R : φ(A) → Y = y szab´ alyra illeszkedik az t objektum, ha a feltételrész attrib´ utumv´ altoz´ oiba az t megfelel˝ o értékeit helyettes´ıtj¨ uk, akkor igaz értéket kapunk. Amennyiben a szabály következményrésze is igazra értékel˝odik az objektumon, akkor a szabály fenn´ all vagy igaz az objektumon. 6.4. defin´ıci´ o. Az R : φ(A) → Y = y szab´ aly lefedi az T objektumhalmazt, ha minden objektum illeszkedik a szab´ alyra. Adott T tan´ıt´ o halmaz esetén az R a ´ltal fedett tan´ıt´ opontok halmaz´ at coverT (R)-rel jel¨ olj¨ uk. Helyesen fedi az T halmazt az R : φ(A) → Y = y szabály, ha R fedi T -et és a halmaz o¨sszes objektuma az y osztályba tartozik. Ellenkez˝o esetben helytelen fedésr˝ ol vagy egyszer˝ ubben rossz osztályozásról beszél¨ unk. A coverT -ben az R a´ltal helyesen fedett pontok halmazát cover + T (R)rel jelölj¨ uk (a helytelen¨ ul fedettekét pedig cover − T (R)-rel).


132

6.5. defin´ıci´ o. Az R szab´ aly relat´ıv fedési hibája megegyezik a rosszul oszt´ alyozott pontok sz´ am´ anak a fedett tan´ıt´ opontokhoz vett ar´ any´ aval, teh´ at ErT (R) =

cover − T (R) . coverT (R)

D¨ ont´ esi szab´ alyok kifejez˝ oereje Kifejez˝o erej¨ uk szempontjából a döntési szabályok következ˝o t´ıpusairól beszél¨ unk : ´ıt´ etelkalkulus-alap´ u d¨ ont´ esi szab´ aly A feltételrészben predikátumok logikai kapcsolata a´ll (´ıtéletkalkulus egy formulája, amelyben nem szerepelnek a → és ←→ m˝ uveleti jelek). Minden predikátum egy attrib´ utumra vonatkozik. Amennyiben az attrib´ utum kategória t´ıpus´ u, akkor A = a vagy A ∈ A alak´ u a feltétel, ahol a egy konstans, A pedig az A értékkészletének egy részhalmaza. Sorrend vagy intervallum t´ıpus´ u attrib´ utum esetében 0 00 emellett A ≤ a és a ≤ A ≤ a szabályokat is megenged¨ unk.

Az algoritmusok többsége csak olyan egyszer˝ u formulákat tud el˝oa´ll´ıtani, amelyekben a predikátumok és kapcsolatai a´llnak, például MAGASS´ AG ≤170 AND HAJSZ´ IN = barna AND ´ SZEMSZIN ∈ {k´ ek, z¨ old}. A csak ´ıtéletkalkulus-alap´ u szabályokat tartalmazó döntési szabályokat/fákat univariate (egyváltozós) döntési szabályoknak/fáknak h´ıvjuk.

rel´ aci´ o-alap´ u d¨ ont´ esi szab´ aly Ha halmazelméleti szemmel nézz¨ uk a predikátumokat, akkor az attrib´ utumokra vonatkozó predikátumot nevezhet¨ unk bináris relációnak, amelynek egyik tagja egy változó, másik tagja egy konstans. A reláció-alap´ u döntési szabályokban a második tag attrib´ utumváltozó is lehet. Itt például a hajsz´ ın = szemsz´ ın vagy a sz´ eless´ eg < magass´ ag megengedett feltételek. A reláció-alap´ u szabályokat tartalmazó döntési szabályokat/fákat multivariate (többváltozós) döntési szabályoknak/fáknak h´ıvjuk. A reláció alap´ u döntési szabályoknak nem nagyobb a kifejez˝o erej¨ uk, amennyiben az attrib´ utumok értékészlete véges. Ekkor ugyanis egy relációs szabály helyettes´ıthet˝o sok egyváltozós szabálypárral. A fenti példa megfelel˝oje a hajsz´ ın = barna AND szemsz´ ın = barna, hajsz´ ın = k´ ek AND szemsz´ ın = k´ ek, hajsz´ ın = m´ alyva AND szemsz´ ın = m´ alyva szabályokkal. indukt´ıv logikai programoz´ as Példaként tegy¨ uk fel, hogy ép´ıt˝oelemek egy kupacát toronynak h´ıvjuk, amelynek legfels˝o elemére a cs´ ucs, a maradék elemekre pedig a marad´ ek attrib´ utummal hivatkozunk. A sz´ eless´ eg < magass´ ag → ALAK = a ´ll´ o szabályt u ´ gy is ´ırhatjuk, hogy sz´ eless´ eg(´ ep´ ıt} oelem) < magass´ ag(´ ep´ ıt} oelem) → a ´ll´ o(´ ep´ ıt} oelem). S˝ot a szabályt tovább is bonyol´ıthatjuk : sz´ eless´ eg(torony.cs´ ucs) < magass´ ag(torony.cs´ ucs) AND a ´ll´ o(torony.marad´ ek) → a ´ll´ o(torony). Ez egy rekurz´ıv kifejezés, amely szerint egy torony akkor a´lló, ha a legfels˝o elem magassága nagyobb a szélességénél és a maradék elem a´lló. A rekurziót le kell zárni : torony = u ¨res → a ´ll´ o(torony). A rekurz´ıv szabályoknak nagyobb a kifejez˝oerej¨ uk, mint a reláció-alap´ u döntési szabályhalmaznak, hiszen kifejetve tetsz˝oleges szám´ u predikátumot tartalmazhatnak. A rekurz´ıv szabályokat is tartalmazó szabályhalmazt logikai programnak nevezz¨ uk, ezekkel továbbiakban nem foglalkozunk.


133

6.6.1. Szab´ alyhalmazok ´ es szab´ alysorozatok Beszél¨ unk szab´ alyhalmazr´ ol és szab´ alyoksorozat´ ar´ ol. Halmazok esetén a szabályok f¨ uggetlenek egymástól. A szabályhalmaz egyértelm˝ u, ha tetsz˝oleges objektum csak egy szabályra illeszkedik. Sorozat esetében egy u ´ j objektum osztályattrib´ utumának jóslásánál egyesével sorra vessz¨ uk a szabályokat egészen addig, am´ıg olyat találunk, amelyre illeszkedik az objektum. Ennek a szabálynak a következményrésze adja meg az osztályattrib´ utum értékét. Egy szabályrendszer (sorozat vagy halmaz) teljes, ha tetsz˝oleges objektum illeszthet˝o egy szabályra. Ez köznyelven azt jelenti, hogy az osztályozó minden esetben (tetsz˝oleges osztályozandó elemre) döntést hoz. Sorozatok esetében a teljességet a´ltalában az utolsó, u ´ n. alapértelmezett szabály biztos´ıtja, amelynek feltételrésze u ¨ res, tehát minden objektum illeszkedik rá. Szabálysorozat esetében nem kell beszéln¨ unk egyértelm˝ uségr˝ol, hiszen több szabályra való illeszKaliforniai kutat´ ok szerint a ma” kedés esetén egyértelm˝ u a legels˝o illeszked˝o. A szabályok rihu´ ana egyik o ¨sszetev˝ oje blokkolközötti sorrend (vagy másképp prioritás) biztos´ıtásával ni képes a mellr´ ak szétterjedését ker¨ ulj¨ uk el azt a problémát, hogy milyen döntést hozzunk, a szervezetben.” Forrás : http:// ha egy objektumra több, k¨ ulönböz˝o következményrésszel velvet.hu/blogok/gumicukor/ rendelkez˝o szabály illeszkedik. tags/kutat\%C3\%A1s Sajnos a sorrend definiálásának a´ra van. Szabályhalmaz esetén ugyanis minden szabály a tudásunk egy töredékét rögz´ıti. Sorozatok esetében azonban egy szabályt nem emelhet¨ unk ki a környezetéb˝ol ; egy R szabály csak akkor s¨ uthet˝o el, ha az R-et megel˝oz˝o szabályok feltételrészei nem teljes¨ ulnek.

6.6.2. D¨ ont´ esi t´ abl´ azatok A döntési táblázat minden oszlopa egy attrib´ utumnak felel meg, az utolsó oszlop az osztályattrib´ utumnak. Az A attrib´ utumhoz tartozó oszlopban az A értékére vonatkozó feltétel szerepelhet, leggyakrabban A = a alakban (´ıtételkalkulus-alap´ u döntési szabály). A táblázat egy sora egy döntési szabályt rögz´ıt. Ha az attrib´ utumok a sorban szerepl˝o feltételeket kielég´ıtik, akkor az osztályattrib´ utum értéke megegyezik a sor utolsó elemének értékével. Elég az elméletb˝ol, lássunk egy példát : id˝ojárás napos napos bor´ us es˝os es˝os es˝os es˝os

h˝omérséklet meleg meleg meleg enyhe hideg hideg hideg

páratartalom szél magas nincs magas van magas nincs magas nincs magas nincs magas nincs magas nincs

játékid˝o ? nem nem nem igen igen igen igen

Döntési táblák el˝oa´ll´ıtásánál a következ˝o kérdéseket kell tisztázni : I. Az attrib´ utumok melyik részhalmazát érdemes kiválasztani ? Ideális az lenne, ha minden részhalmazt ki tudnánk értékelni és kiválasztani azt, amelyik a legkisebb hibát (rosszul


134

osztályozott tan´ıtópontok száma) adja. A gyakorlatban azonban az attrib´ utumok száma nagy ezért az o¨sszes részhalmaz kipróbálása sok id˝obe telik. II. Hogyan kezelj¨ uk a folytonos attrib´ utumokat ? A fenti példában a h˝omérsékletet diszkretizáltuk. Meleg az id˝o, ha 25 foknál több van, alatta enyhe 5 fokig. Ha a h˝omérséklet 5 fok alá megy, akkor hideg van. Ideális az lenne, ha a folytonos attrib´ utumokat az algoritmus automatikusan tudná diszkretizálni.

6.6.3. Az 1R algoritmus Talán a legegyszer˝ ubb osztályzó algoritmus az 1R. Kiválaszt egy attrib´ utumot és az osztályozásban kizárólag ezt használja. Annyi szabályt a´ll´ıt el˝o, ahány értéket felvesz a kiválasztott attrib´ utum a tan´ıtóhalmazban. Az A = a → Y = c szabály következményrészében szerepl˝o c osztály a legtöbbször el˝oforduló osztály az A attrib´ utumában a értéket felvev˝o tan´ıtóminták köz¨ ul. Nyilvánvaló, hogy az 1R egyértelm˝ u szabályhalmazt a´ll´ıt el˝o. Minden attrib´ utumértékhez meg tudjuk határozni a rosszul osztályozott tan´ıtópontok számát. Ha o¨sszeadjuk az A attrib´ utum értékeihez tartozó rosszul osztályozott tan´ıtópontok számát, akkor megkapjuk, hogy mennyi tan´ıtópontot osztályoznánk rosszul, ha az A attrib´ utum lenne a kiválasztott. A legkevesebb rosszul osztályozott tan´ıtópontot adó attrib´ utumot választjuk osztályzó attrib´ utumnak. Hiányzó attrib´ utumértékeket u ´ gy kezelj¨ uk, mintha az attrib´ utumnak lenne egy k¨ ulönleges, a többit˝ol eltér˝o értéke. Sorrend és intervallum t´ıpus´ u attrib´ utumnál A ≤ a, a0 ≤ A < a00 és a000 ≤ A t´ıpus´ u szabályokat célszer˝ u el˝oa´ll´ıtani. Ehhez csoportos´ıtsuk az egymást követ˝o értékeket u ´ gy, hogy a hozzájuk tartozó osztályérték szempontjából homogén csoportokat hozzanak létre. Erre diszkretizálásként is hivatkozunk és az 1R során használt módszert az El˝ofeldolgozás fejezetben ismertett¨ uk (lásd 3.3.5 rész). Habár a sorrend és intervallum t´ıpus´ u attrib´ utum csoportos´ıtásán sokat lehet elmélkedni az 1R módszer nem t´ ul bonyolult. Egyszer˝ usége ellenére elég jól muzsikál a gyakorlatban. Egy meglep˝o cikkben [77] a szerz˝o arról ´ırt, hogy az 1R sokkal jobb osztályzó algoritmus, mint azt hinnénk. A szerz˝ok azon a 16 adatbázison értékelték ki a k¨ ulönböz˝o osztályozó módszereket – közt¨ uk az 1R-t –, amelyeket a kutatók gyakran használnak cikkeikben. A diszkretizálásnál 3 helyett 6-ot használt, a módszereket kereszt-validációs eljárással hasonl´ıtotta o¨ssze. Az 1R zavarba ejt˝oen jó helyen végzett, a pontosság tekintetében alig maradt el az u ´ jabb és jóval bonyolultabb eljárásoktól. Az 1R nevében szerepl˝o szám az osztályozás során felhasznált attrib´ utum számára utal. Létezik 0R osztályozó is, amely nem használ fel egyetlen attrib´ utumot sem. Az osztályozó ekkor egy feltétel nélk¨ uli szabály, amely ´ıtéletrészében a leggyakoribb osztály a´ll. Weka 3.5.7

A wek´ aban a 0R és 1R m´ odszereket a weka.classifiers.rules.ZeroR és a weka.classifiers.rules.OneR oszt´ alyok implement´ alj´ ak. Az 1R m´ odszer egyetlen paramétere a diszkretiz´ al´ as sor´ an haszn´ alt elemsz´ am k¨ usz¨ ob.


135

6.6.4. A Prism m´ odszer A Prism módszer [32] feltételezi, hogy a tan´ıtó adatbázisban nincs két olyan elem, amelynek a fontos magyarázandó attrib´ utumai megegyeznek, de más osztályba tartoznak. Ha mégis akadnak ilyen objektumok, akkor csak egyet tartsunk meg méghozzá olyat, amelyik a leggyakrabban el˝oforduló osztályba tartozik. A leggyakoribb osztályt az azonos attrib´ utumértékkel rendelkez˝o pontok körében kell nézni. A Prism módszer a fed˝ o m´ odszerek közé tartozik. A fed˝o algoritmus egyesével veszi az osztályattrib´ utum értékeit és megpróbál olyan szabályokat el˝oa´ll´ıtani, amelyek helyesen fedik azon tan´ıtópontokat, amelyek a vizsgált osztályba tartoznak. A szabályok el˝oa´ll´ıtásánál a feltételrészhez adunk hozzá egy-egy u ´ jabb részfeltételt törekedve arra, hogy olyan részfeltételt vegy¨ unk, amely legnagyobb mértékben növeli a pontosságot. A módszer hasonl´ıt a döntési fák el˝oa´ll´ıtására (lásd következ˝o fejezet) ott is a meglév˝o szabályhalmazhoz egy u ´ j részfeltételt adunk. Döntési szabályoknál más a cél ; pontosság növelése helyett az osztályok közötti szeparációt szeretnénk maximalizálni. A Prism menete a következ˝o. Egyesével sorra vessz¨ uk az osztályattrib´ utum értékeit. Minden értéknél kiindulunk egy olyan döntési szabályból, amelynek feltételrésze u ¨ res, következményrészében pedig az aktuális osztályérték szerepel. Minden lehetséges A attrib´ utum, a érték párra kiszám´ıtjuk, hogy mennyi lenne a helytelen¨ ul osztályozott tan´ıtópontok száma, ha az A = a részfeltételt adnánk a feltételrészhez. Azt a részfeltételt választjuk, amely a legkisebb relat´ıv fedési hibát adó szabályt eredményezi. A részfeltételek hozzáadását addig folytatjuk, am´ıg olyan szabályt kapunk, amelynek nem nulla a fedése, de nulla a relat´ıv fedési hibája. Ezután törölj¨ uk a tan´ıtópontok köz¨ ul azokat a szabályokat, amelyeket az u ´ jonnan el˝oa´ll´ıtott szabály lefed. Ha nincs több olyan tan´ıtópont, amelynek osztályattrib´ utuma az aktuális osztályértéket veszi fel, akkor a következ˝o attrib´ utumértéket vessz¨ uk a következményrészbe. Az algoritmus pszeudokódja a 8 a´brán olvasható. A Prism algoritmus alkotta szabályokat szabálysorozatként célszer˝ u értelmezni. A módszer mindig olyan szabályokat hoz létre, amely lefed néhány tan´ıtópontot. A következ˝o szabály a maradék tan´ıtópontokra szól ezért u ´ j objektum osztályozásakor akkor s¨ uss¨ uk el, ha az el˝oz˝o szabályt nem tudtuk illeszteni. A Prism algoritmusra, mint separate and conquer (lev´ alaszt majd lefed ) módszerre szoktak hivatkozni. A Prism el˝oször leválasztja a tan´ıtópontok egy csoportját, majd megpróbálja lefedni azokat szabályokkal. A Prism csak 100%-os pontosság´ u szabályokat a´ll´ıt el˝o. Az ilyen egzakt szabályok mindig a t´ ultanulás veszélyét hordozzák magukban. Az ilyen szabályok sok feltételt tartalmaznak és a´ltalában kevés tan´ıtópontot fednek. Hasznosabb lenne kisebb pontosság´ u, de több pontot fed˝o szabályokat el˝oa´ll´ıtani. A tökéletességre való törekvés a Prism egy vitathatatlan hibája. Ha például egy feltétel két meghosszabb´ıtása olyan, hogy az els˝o lefed 1000 pontot, de egyet negat´ıvan, a másik pedig csak egy pontot fed le (nyilván helyesen), akkor a Prism a második meghosszabb´ıtást fogja választani. Egy Prism változat a φ növelésénél a jelölt AND A = a taggal a relat´ıv fedési hiba helyett egy információ nyereség jelleg˝ u értékkel számol. Jelölj¨ uk a φ AND A = a → Y = y szabályt R-rel. hiba* = cover + (R) · log(Er(R)) − log(Er(φ → Y = y)) . Az információnyereség-alap´ u Prism is addig b˝ov´ıti a feltételrészt, am´ıg nem siker¨ ul 100%-os pontosság´ u szabályt el˝oa´ll´ıtani. ¨ Osszehasonl´ıtva az információnyereség és a relat´ıv fedési hiba alapján el˝oa´ll´ıtott szabályokat a következ˝oket mondhatjuk. A relat´ıv fedési hiba esetén eleinte kis fedés˝ u szabályokat nyes le,


136

Algorithm 8 Prism Require: T : tan´ıtópontok halmaza, Y : osztályattrib´ utum változó, for all y ∈ osztályattrib´ utum értékre do E ← az y osztályba tartozó tan´ıtópontok φ←∅ while E 6= ∅ do R←φ→Y =y while ErT (R) 6= 0 do hiba ← 1 for all (A, a) attrib´ utum-érték párra do if Er(φ AND A = a → Y = y) < hiba then hiba ← Er(φ AND A = a → Y = y) A∗ ← A a∗ ← a end if end for φ ← φ AND A∗ = a∗ end while T ← T \ cover(R) end while end for hogy a kivételeket jelent˝o tan´ıtó pontokat lefedje. A komoly szabályokat a futás végére hagyja. Az információnyereség-alap´ u módszer ford´ıtva m˝ uködik, a speciális eseteket a végére hagyja. Weka

3.5.7

A wek´ aban a Prism m´ odszert a weka.classifiers.rules.Prism oszt´ aly implement´ alja.

6.7. D¨ ont´ esi f´ ak A döntési fák alapötlete, hogy bonyolult o¨sszef¨ uggéseket egyszer˝ u döntések sorozatára vezet vissza. Egy ismeretlen minta klasszifikálásakor a fa gyökeréb˝ol kiindulva a csomópontokban feltett kérdésekre adott válaszoknak megfelel˝oen addig lépked¨ unk lefelé a fában, am´ıg egy levélbe nem ér¨ unk. A döntést a levél c´ımkéje határozza meg. Egy hipotetikus, leegyszer˝ us´ıtett, hi4 telb´ırálatra alkalmazható döntési fát mutat be a 6.12. a´bra. A döntési fák nagy el˝onye, hogy automatikusan felismerik a lényegtelen változókat. Ha egy változóból nem nyerhet˝o információ a magyarázott változóról, akkor azt nem is tesztelik. Ez a tulajdonság azért el˝onyös, mert ´ıgy a fák teljes´ıtménye zaj jelenlétében sem romlik, valamint a problémamegértés¨ unket is nagyban seg´ıti, ha megtudjuk, hogy mely változók fontosak, és me4

Az a ´br´ azolt d¨ ontési fa sem érték´ıtéletet, sem val´ os hitelb´ır´ alati szab´ alyokat nem t¨ ukr¨ oz, puszt´ an illusztr´ aci´ o.


137 éves jövedelem <2M HUF igen nem

3+ gyerek

ingatlantulajdonos

igen

nem

igen

nem

megtagadni

jóváhagyni

jóváhagyni

kor <30

igen

nem

jóváhagyni

megtagadni

6.12. a´bra. Döntési fa hitelb´ırálatra ´ lyek nem. Altal´ aban elmondható, hogy a legfontosabb változókat a fa a gyökér közelében teszteli. További el˝ony, hogy a döntési fák nagyméret˝ u adathalmazokra is hatékonyan felép´ıthet˝ok. A döntési fák egyik fontos tulajdonsága, hogy egy csomópontnak mennyi gyermeke lehet. Nyilvánvaló, hogy egy olyan fa, amely pontjainak kett˝onél több gyermeke is lehet mindig a´trajzolható bináris fává. A legtöbb algoritmus ezért csak bináris fát tud el˝oa´ll´ıtani. Weka 3.5.7

A d¨ ontési f´ akkal kapcsolatos m´ odszereket a weka.classifiers.trees csomagban tal´ aljuk. A Classifier output ablakban a d¨ ontési f´ at sz¨ ovegesen megjelen´ıtve l´ athatjuk, amennyiben nem kapcsoljuk ki a Classifier evaluation options panelen az Output model kapcsol´ ot. A d¨ ontési fa grafikus megjelen´ıtéséhez jobb gombbal klikkelj¨ unk a Result list ablakban a megfelel˝ o elemre és v´ alasszuk a Visualize tree lehet˝ oséget.

6.7.1. D¨ ont´ esi f´ ak ´ es d¨ ont´ esi szab´ alyok A döntési fák el˝ony˝os tulajdonsága, hogy a gyökérb˝ol egy levélbe vezet˝o u ´ t mentén a feltételeket o¨sszeolvasva könnyen értelmezhet˝o szabályokat kapunk a döntés meghozatalára, illetve hasonlóan egy laikus számára is érthet˝o módon azt is meg tudjuk magyarázni, hogy a fa miért pont az adott döntést hozta. 6.6. ´ eszrev´ etel. A d¨ ontési f´ akb´ ol nyert d¨ ontési szab´ alyhalmazok egyértelm˝ uek. Ez nyilvánvaló, hiszen tetsz˝oleges objektumot a fa egyértelm˝ uen besorol valamelyik levelébe. E levélhez tartozó szabályra az objektum illeszkedik, a többire nem. Vannak olyan döntési feladatok, amikor a döntési fák t´ ul bonyolult szabályokat a´ll´ıtanak el˝o. Ezt egy példával illusztráljuk. 6.7. p´ elda. Jel¨ olj¨ uk a négy bin´ aris magyar´ azand´ o attrib´ utumot A, B, C, D-vel. Legyen az ´ oszt´ alyattrib´ utum is bin´ aris és jel¨ olj¨ uk Y -nal. Alljon a d¨ ontési szab´ alysorozat h´ arom szab´ alyb´ ol :


138

I. A=1 AND B=1 → Y=1 II. C=1 AND D=1 → Y=1 III. → Y=0 A szab´ alysorozat teljes, hiszen az utols´ o, feltétel nélk¨ uli szab´ alyra minden objektum illeszkedik. A fenti oszt´ alyoz´ ast a 6.13 a ´br´ an l´ athat´ o d¨ ontési fa adja. A 0

1 B

C

1

0

1

0

1

C

D

0

1

0

1

0

D

0

1

0

1

0

1

0

6.13. a´bra. Példa adott döntési sorozattal ekvivalens döntési fa A fenti példában a döntési fa az osztályozás bonyolultabb le´ırását adja, mint a szabálysorozat. A sárga és kék részfák izomorfak. A részfa a´ltal adott osztályozást egyszer˝ uen tudjuk kezelni a döntési szabálysorozatokkal, de a részfák ismételt felrajzolása nem elker¨ ulhet˝o döntési fák esetében. Ezt a problémát az irodalom ismétl˝ od˝ o részfa problémaként (replicated subtree problem) emlegeti és a döntési fák egy alapproblémájának tekinti. A döntési fák a megoldást nagymértékben elbonyol´ıthatják. Az el˝oz˝o példában, ha a magyarázó attrib´ utumok nem binárisak, hanem három értéket vehetnek fel, akkor a megadott döntési sorozattal ekvivalens döntési fa a 6.14 a´brán látható. Az a részfa, amelynek pontjait sz¨ urkével jelölt¨ uk megismétl˝odik háromszor. Az ismétl˝od˝o részfát egy háromszöggel helyettes´ıtett¨ uk az a´ttekinthet˝oség érdekében. Természetesen a fa jóval egyszer˝ ubb lenne, ha az attrib´ utumot nem csak egy értékkel hasonl´ıthatnánk o¨ssze, hanem olyan tesztet is kész´ıthetnénk, hogy az adott attrib´ utum benne van-e egy adott értékhalmazban. Például a gyökérben csak kétfelé célszer˝ u a´gazni, attól f¨ ugg˝oen, hogy A=1 vagy A6= 1 (másképp A ∈ {2,3}). Ha ilyen feltételeket megengednénk, akkor a 6.13 a´brán látható fával izomorf fát kapnánk (ha a c´ımkéket nem vessz¨ uk figyelembe).

6.7.2. A d¨ ont´ esi fa el˝ o´ all´ıt´ asa A fát a tan´ıtó adatbázisból rekurz´ıvan a´ll´ıtjuk el˝o. Kiindulunk a teljes tan´ıtó adatbázisból és egy olyan kérdést keres¨ unk, aminek seg´ıtségével a teljes tanulóhalmaz jól szétvágható. Egy szétvágást akkor tekint¨ unk jónak, ha a magyarázandó változó eloszlása a keletkezett részekben


139 A

B

1

1

C

D

0

0

0

0

6.14. a´bra. Az ismétl˝od˝o részfaprobléma szemléltetése kevésbé szórt, kevésbé bizonytalan, mint a szétvágás el˝ott. Egyes algoritmusok arra is törekednek, hogy a keletkez˝o részek kb. egyforma nagyok legyenek. A részekre rekurz´ıvan alkalmazzuk a fenti eljárást. Egy csomópont leszármazottjaiban nem vizsgáljuk többé azt az attrib´ utumot, ami alapján szétosztjuk a mintát. A rekurziót akkor szak´ıtjuk meg valamelyik a´gban, ha a következ˝o feltételek köz¨ ul teljes¨ ul valamelyik : – A csomópont elemei ugyanabba az osztályba tartoznak. – Nincs több attrib´ utum, ami alapján az elemeket tovább oszthatnánk. A csomóponthoz tartozó osztály ekkor az lesz, amelyikhez a legtöbb tan´ıtópont tartozik. – Nem tartozik az adott csomóponthoz tan´ıtópont. – Az adott mélység elért egy el˝ore megadott korlátot. – Nincs olyan vágás, amely jav´ıtani tudna az aktuális osztályzáson. A vágás jóságáról kés˝obb szólunk. Minden levélhez hozzá kell rendeln¨ unk a magyarázandó változó egy értékét, a döntést. Ez a´ltalában az u ´ n. többségi szavazás elve alapján történik : az lesz a döntés, amely kategóriába a legtöbb tan´ıtóminta tartozik. Hasonló módon bels˝o csomópontokhoz is rendelhet¨ unk döntést. Weka 3.5.7 A döntési fa interakt´ıv el˝oa´ll´ıtását teszi lehet˝ové a weka.classifiers.trees.UserClassifier oszt´ aly. A m´ odszer elind´ıt´ asa ut´ an egy ablak jelenik meg amelynek két f¨ ule van. A Tree Visualizer f¨ ul¨ on az aktu´ alis f´ at l´ athatjuk, a Data Visualizer pedig a kijel¨ olt fa csom´ opontj´ anak tan´ıt´ opontjai jelen´ıti meg. Itt a ´ll´ıthatjuk el˝ o a v´ ag´ asi f¨ uggvényt, amelyhez vizu´ alis seg´ıtséget kapunk. Az oszt´ aly eloszl´ as´ at l´ athatjuk két tetsz˝ olegesen kiv´ alaszthat´ o attrib´ utum értékeinek f¨ uggvényében. Ez alapj´ an kijel¨ olhet¨ unk egy téglalapot, poligont vagy


140

o ¨sszek¨ ot¨ ott szakaszokat, amely kettév´ alasztja a pontokat. Akkor j´ o a kettév´ alaszt´ as, ha az oszt´ alyattrib´ utum szerint homogén csoportok j¨ onnek létre.

A döntési fák el˝oa´ll´ıtására a következ˝o három f˝o algoritmus család ismert : I. Interactive Dichotomizer 3 (ID3 ) család, jelenlegi változat C5.05 II. Classification and Regression Trees (CART)6 III. Chi-squared Automatic Interaction Detection (CHAID)7

6.7.3. Az ID3 algoritmus Az ID3 az egyik leg˝osibb és legismertebb osztályzó algoritmus. A tesztattrib´ utum kiválasztásához az entrópia csökkenését alkalmazza. Ha Y egy ` lehetséges értéket p i (i = = 1, . . . , `) valósz´ın˝ uséggel felvev˝o valósz´ın˝ uségi változó, akkor Y Shannon-féle entrópiáján a H (Y ) = H (p1 , . . . , pk ) = −

l X

pj log2 pj

j=1

számot értj¨ uk8 . Az entrópia az információ-elmélet (lásd [39]) központi fogalma, és Y változó értékével kapcsolatos bizonytalanságunkat fejezi ki. Ha egy X változót megfigyel¨ unk és azt tapasztaljuk, hogy értéke xi , akkor Y -nal kapcsolatos bizonytalanságunk H (Y |X = xi ) = −

k X j=1

P (Y = yj |X = xi ) log2 P (Y = yj |X = xi )

nagyság´ u. Így ha lehet˝oség¨ unk van X-et megfigyelni, akkor a várható bizonytalanságunk X H (Y |X) = P (X = xi ) H (Y |X = xi ) i=1

Eszerint X megfigyelésének lehet˝osége a bizonytalanság I (Y, X) = H (Y ) − H (Y |X) csökkenését eredményezi, azaz X ennyi információt hordoz Y -ról. Az ID3 az Y attrib´ utum szerinti klasszifikálásakor olyan X attrib´ utum értékei szerint a´gazik szét, amelyre I (Y, X) maximális, azaz H (Y |X) minimális. 5

Magyarul: Interakt´ıv tagol´ o / feloszt´ o Klasszifik´ al´ o és regresszi´ os f´ ak 7 Khi-négyzet alap´ u automatikus interakci´ o felismerés 8 Az entr´ opia képletében 0 · ∞ meg´ allapod´ as szerint 0-val egyenl˝ o.

6


141

Weka 3.5.7 A wek´ aban az Id3 algoritmust a weka.classifiers.treea.Id3 oszt´ aly implement´ alja.

A kölcsönös entrópia azokat az attrib´ utumokat kedveli”, amelyek sok értéket vesznek fel és ” ´ıgy sokfelé a´gazik a fa [139]. Ez terebélyes fákat eredményez. Gondoljuk meg, ha a kiértékelésbe bevessz¨ uk az azonos´ıtó kódot, akkor az 0 kölcsönös entrópiát fog produkálni, ´ıgy az algoritmus azt választaná. Hasonló a probléma az 1R módszer diszkretizálásánál eml´ıtettel (lásd ??. oldal). Egy lehetséges megoldás a nyereségarány mutató (gain ratio) használata [141], amelyre mint normált kölcsönös információ tekint¨ unk. Ez a mutató figyelembe veszi a gyerek csomópontokba ker¨ ul˝o tan´ıtópontok számát és b¨ unteti” azokat az attrib´ utumokat, amelyek t´ ul sok gyereket ” hoznak létre. A nyereségarányt u ´ gy kapjuk meg, hogy a kölcsönös információt elosztjuk, az adott attrib´ utum entrópiájával : gain ratio(X) =

I(Y, X) . H(X)

Sajnos a nyereségarány sok esetben t´ ulkompenzál” és olyan attrib´ utumokat részes´ıt ” el˝onyben, amelynek az entrópiája kicsi. Egy a´ltalános gyakorlat, hogy azt az attrib´ utumot választják, amelyik a legnagyobb nyereségarányt adja, azon attrib´ utumok köz¨ ul, amelyekhez tartozó kölcsönös információ legalább akkora mint az o¨sszes vizsgált attrib´ utumhoz tartozó kölcsönös információk a´tlaga.

6.7.4. Felt´ etelek a csom´ opontokban Az ID3 algoritmus kiválasztja a minimális feltételes entrópiával rendelkez˝o attrib´ utumot és annyi gyerekcsomópont jön létre, amennyi értéket felvesz az attrib´ utum. Leállási feltételként szerepel, hogy egy a´gat nem vágunk tovább, ha nincs több vizsgálható attrib´ utum, azaz a fa maximális mélysége megegyezik az attrib´ utumok számával. Az ID3 algoritmus nem feltétlen¨ ul bináris fát a´ll´ıt el˝o. Ha bináris fa el˝oa´ll´ıtása a cél (továbbá az intervallum t´ıpus´ u attrib´ utum szofisztikáltabb kezelése), akkor a magyarázó X attrib´ utum t´ıpusától f¨ ugg˝oen kétféle feltételt szokás létrehozni. Sorrend t´ıpus esetében X ≥c, ahol c egy olyan érték, amelyet az X felvesz valamelyik tan´ıtópont esetén. Intervallum t´ıpus´ u attrib´ utumoknál a c két szomszédos tan´ıtóérték a´tlaga. Kategória t´ıpus esetében X ⊆K, ahol K az X értékkészletének egy részhalmaza. Az els˝o esetben X felvett értékeivel lineárisan arányos feltételes entrópiát kell szám´ıtani, a másodikban pedig a felvett értékek számával exponenciális szám´ ut (ugyanis egy n elem˝ u halmaznak 2 n darab részhalmaza van). Sok esetben akkor kapunk jó bináris döntési fát, ha egy gyökérb˝ol levélig vezet˝o u ´ ton egy attrib´ utumot többször is vizsgálunk (k¨ ulönböz˝o konstansokkal). A fa mélysége ekkor az attrib´ utumok számánál jóval nagyobb is lehet.

6.7.5. V´ ag´ asi f¨ uggv´ enyek Miért pont a kölcsönös információt használja az ID3 algoritmus ? Milyen jó tulajdonsággal rendelkezik a kölcsönös információ ? Van egyéb vágási f¨ uggvény, amely rendelkezik ezekkel a jó


142

tulajdonságokkal ? A válaszok kulcsa a Taylor-Silverman elv´ ar´ asok (impurity-based criteria) és a v´ ag´ asok j´ os´ aga. 6.8. defin´ıci´ o. Legyen X egy olyan diszkrét val´ osz´ın˝ uségi v´ altoz´ o, amely k-értéket vehet fel. Az eloszl´ asf¨ uggvény értékei legyenek P = (p1 , p2 , . . . , pk ). A Φ : [0,1]k 7−→ R v´ ag´ asi f¨ uggvénnyel szemben t´ amasztott Taylor-Silverman elv´ ar´ asok a k¨ ovetkez˝ ok : I. Φ(P ) ≥ 0 II. Φ(P ) akkor veszi fel a minimum´ at, ha ∃j : pj = 1 III. Φ(P ) akkor veszi fel a maximum´ at, ha ∀j : pj = 1/k IV. Φ(P ) a P komponenseire nézve szimmetrikus, teh´ at a p1 , p2 , . . . , pk értékek tetsz˝ oleges permut´ aci´ oj´ ara ugyanazt az értéket adja. V. Φ(P ) differenci´ alhat´ o az értelmezési tartom´ any´ aban mindenhol Adott T tan´ıtóminta esetén a vágási f¨ uggvény szám´ıtásakor a p j valósz´ın˝ uséget nem ismerj¨ uk, ´ıgy a relat´ıv gyakorisággal közel´ıtj¨ uk azaz, ha a j-edik osztályba tartozó tan´ıtópontok |T j | j halmazát T -vel jelölj¨ uk, akkor pj = |T| . A valósz´ın˝ uségvektor empirikus megfelel˝ojét P (T)-vel 1

2

`

jelölj¨ uk (P (T) = ( |T|T|| , |T|T|| , . . . , |T|T|| ).

6.9. defin´ıci´ o. Az olyan V v´ ag´ as j´ os´ aga, amely sor´ an a T tan´ıt´ opontokat T 1 , T2 , . . . , T` diszjunkt tan´ıt´ ohalmazba osztjuk szét, megegyezik a ∆Φ(V, T) = Φ(P (T)) −

` X Ti i=1

T

· Φ(P (Ti ))

értékkel. Minél nagyobb egy vágási f¨ uggvény, annál jobb a vágás. Adott vágási f¨ uggvény és tan´ıtóponthalmaz esetén célunk megtalálni azt a vágást, amely a maxim´ a lis v´ a g´ a st eredm´ enyezi. P ` Ti Mivel a Φ(P (T)) adott tan´ıtóhalmaz esetén rögz´ıtett, ezért elég a i=1 T ·Φ(P (Ti )) értéket minimumát megtalálni. Amennyiben a vágási f¨ uggvény csak az osztályok relat´ıv gyakoriságát veszi figyelembe, akkor a vágás jósága 0 lesz abban az esetben, ha az osztályok eloszlása a gyerekekben megegyezik a sz¨ ul˝oben található osztályeloszlással. Ez megfelel elvárásainknak, nem nyer¨ unk semmit az olyan vágással, amely során az egyes osztályba tartozó pontok relat´ıv száma egymáshoz viszony´ıtva mit sem változik. Most már látható Taylor és Silverman miért fogalmazta meg az elvárásait. A lényeg a második és a harmadik elvárás. Azt szeretnénk, hogy a gyermekekben található tan´ıtóminták minél homogénebbek legyenek. Ideális esetben olyan gyerekek jönnek létre, amelyekhez tartozó tan´ıtópontok egy osztályba tartoznak. Ehhez az osztályhoz tartozó relat´ıv gyakoriság 1, a többi osztályé 0 és a vágási f¨ uggvény a minimumát veszi fel. A legrosszabb esetben az o¨sszes osztály relat´ıv gyakorisága megegyezik, azaz a vágás során olyan gyerek jött létre, amelyben az osztályattrib´ utum teljesen megjósolhatatlan. A harmadik elvárás szerint ezt az esetet b¨ untetni ´ kell, pontosabban a vágási f¨ uggvény vegye fel a minimumát. Ertelemszer˝ uen a minimum és


143

a maximum között a vágási f¨ uggvény normális és kezelhet˝o” legyen, azaz legyen deriválható ” legalábbis minden pontban. Nem meglep˝o, hogy az entrópia teljes´ıti az o¨t feltételt. 6.10. lemma. Az entr´ opia, mint v´ ag´ asi f¨ uggvény, megfelel a Taylor-Silverman elv´ ar´ asoknak [140]. K¨ ulönböz˝o kutatók k¨ ulönböz˝o vágási f¨ uggvényeket vezettek be. Például a CART algoritmusban a Gini indexet [27, 65] használták : Gini(P) = 1 −

k X

p2j .

j=1

A DKM vágási f¨ uggvényt [44][93] bináris osztályozás esetén ajánlják : √ DKM (P) = 2 · p1 p2 6.11. lemma. A Gini és a DKM v´ ag´ asi f¨ uggvények megfelelnek a Taylor-Silverman elv´ ar´ asoknak. Elméletileg bizony´ıtották [93], hogy a DKM vágási f¨ uggvény ugyanakkora hiba mellett kisebb döntési fákat a´ll´ıt el˝o, mintha entrópia vagy Gini index alapján választanánk ki a vágást. Itt szeretnénk visszautalni az ID3 algoritmus ismertetése végén le´ırtakra. Az entrópia alap´ u vágási f¨ uggvények azokat a vágásokat részes´ıtik el˝onyben, amelyek sokfelé vágnak, azaz sok ´ gyereket hoznak létre. Altal´ aban is igaz, hogy ha a vágás jóságát a fenti módon definiáljuk és a vágási f¨ uggvény kielég´ıti a Taylor-Silverman elvárásokat, akkor olyan vágások jönnek létre, amelyekhez sok gyerek tartozik. Természetesen ez a probléma nem jelentkezik bináris döntési fák esetében. Ott minden bels˝o cs´ ucsnak pontosan két gyereke van. A megoldást a vágás jóságának normalizálása jelenti. Például az információnyereség helyett a nyereségarányt (gain ratio) célszer˝ u használni, amelyet megkapunk, ha az információnyereséget ´ elosztjuk az entrópiával. Altalános esetben is hasonlót tesz¨ unk. A [115] cikk szerint a vágás jóságának normáltját a következ˝oképpen célszer˝ u képezni : ||∆Φ(V, T)|| =

−

∆Φ(V, T) , Pk i=1 j=1 pij log pij

P`

ahol pij =|Tij |/|T|. Az Tij az i-edik gyermek j osztályba tartozó tan´ıtópontjainak halmazát jelöli.

6.7.6. Tov´ abbfejleszt´ esek M´ıg az ID3 családba tartozó fák csak klasszifikációra, addig a CHAID és a CART klasszifikációra és el˝orejelzésre is alkalmazható. A C4.5 (amelynek kereskedelmi, jav´ıtott változata a C5.0) és a CHAID fák kizárólag egyetlen attrib´ utumra vonatkozó egyenl˝o, kisebb, nagyobb teszteket használnák a csomópontokban a döntésekhez (egyváltozós fák), azaz a jellemz˝ok terét téglatestekre vágják fel. A CART fák ferdén is tudnak vágni, attrib´ utumok lineáris kombinációját is tesztelik (relációs fák). M´ıg a CART eljárás mindig bináris döntéseket használ


144

a csomópontokban, addig egy nominális attrib´ utumra egy C4.5 fa annyi felé a´gazik, ahány lehetséges értéket az attrib´ utum felvehet. Talán a leglényegesebb k¨ ulönbség a k¨ ulönböz˝o fák között, hogy mit tekintenek jó döntésnek, vágásnak. Nominális magyarázott változó esetén a CHAID eljárás – nevének megfelel˝oen – a χ2 -tesztet használja. A CART metodológia a Gini-indexet minimalizálja. A Gini-index alapján mindig olyan attrib´ utumot keres¨ unk, amely alapján a legnagyobb homogén osztályt tudjuk leválasztani. Ha a magyarázandó Y változó intervallum skálán mért, akkor a CART eljárás egyszer˝ uen a varianciájának csökkentésére törekszik, a CHAID pedig F -tesztet használ. A CHAID konzervat´ıv eljárás, csak addig növeli a fát, am´ıg a cs´ ucsban alkalmazható legjobb 2 szétvágás χ -, vagy F -teszt szerinti szignifikanciája meghalad egy el˝ore adott k¨ uszöböt. A CART és C4.5 eljárások nagyméret˝ u fát ép´ıtenek, akár olyat is, amelyik tökéletesen m˝ uködik a tanuló adatbázison vagy olyan heurisztikus leállási szabályokat alkalmaznak, hogy a fa nem lehet egy el˝ore adott korlátnál mélyebb, vagy hogy egy cs´ ucsot nem szabad már szétvágni, ha egy korlátnál kevesebb eset tartozik bele. Mindenesetre a kialakuló fa nagy és terebélyes lesz, t´ ul speciális, amely nem csak az alappopuláció jellemz˝oit, hanem a mintában el˝oforduló véletlen sajátosságokat is modellezi. Ezért a fát felép´ıtése után egy ellen˝orz˝o adatbázist használva meg szokták metszeni (pruning) és elhagyják a felesleges döntéseket. Tanácsos megvizsgálni, hogy nem fordul-e el˝o, hogy a generált C5.0 vagy CHAID fa egymás után ismételten kevés (2-3) attrib´ utum értékét teszteli. Ez arra utalhat, hogy az attrib´ utumok valamely f¨ uggvénye (pl. : hányadosa - egy f˝ore es˝o jövedelem) b´ır magyarázó er˝ovel és a fa ezt a kapcsolatot próbálja ismételt vagdosással közel´ıteni. Weka 3.5.7 A C4.5 egy továbbfejlesztett változatának java implement´ aci´ oja a weka.classifiers.trees.J48 oszt´ aly. Tal´ an ez a legelismertebb d¨ ontési fa el˝ oa ´ll´ıt´ o m´ odszer a wek´ aban.

Láttuk, hogy többféle mutatószám létezik a vágási kritérium kiválasztására. Ezek között nem létezik a legjobb. Bármelyikhez lehet kész´ıteni olyan adatbázist, amelyet rosszul osztályoz a vágási kritériumot használó algoritmus. A következ˝okben néhány ismert vágási f¨ uggvény egységes le´ırását mutatjuk be.

6.7.7. S´ ulyozott divergenciaf¨ uggv´ enyek f¨ uggv´ enyek

alapj´ an

defini´ alt

v´ ag´ asi

Bináris vágási f¨ uggvények esetén a sz¨ ul˝o csomópont N tan´ıtó pontját osztjuk szét u ´ gy, hogy a bal oldali gyerekbe Nb tan´ıtó pont jut, a jobboldaliba pedig Nj . Az Ni , i ∈ {B, J} pontból Nji tartozik a j-edik osztályba. Legyen πi = Ni /N és pji = Nji /N . A j-edik osztály gyakoriságát a sz¨ ul˝oben pj -vel jelölj¨ uk. A fenti jelölésekkel a χ2 statisztika a´t´ırható az alábbi formába : 2

χ /N = πB

k X j=1

pjB (pjB /pj − 1) + πJ

k X j=1

pjJ (pjJ /pj − 1)


145

Legyen u = (u1 , u2 , . . . , uk ) és v = (v1 , v2 , . . . , vk ) két diszkrét eloszlásf¨ uggvény. Amennyiben a divergencia-f¨ uggvény¨ uket az alábbi módon definiáljuk d(u : v) =

k X j=1

uj (uj /vj − 1),

akkor a χ2 statisztika a´t´ırható a következ˝oképpen (alkalmazzuk a u j (uj /vj − 1) = 0 konvenciót uj = vj = 0 esetén) : χ2 = N πB d(pB : p) + πJ d(pJ : p) .

Ha a divergenciaf¨ uggvénynek a következ˝ot használjuk d(u : v) = 2

k X

uj log(uj /vj ),

j=1

P akkor az entrópiához jutunk. Továbbá d(u : v) = 2 kj=1 (u2j −vj2 ) esetén a Gini index N -edrészét kapjuk. A közös magot az er˝ o divergencia f¨ uggvény adja [159] : k

X 1 dλ (u : v) = uj (uj /vj )λ − 1 , λ(λ + 1) j=1 ahol −1 < λ ≤ ∞. A dλ f¨ uggvény értékét a λ = 0 helyen, az ugyanitt vett határértéke adja dλ -nak. Az er˝o divergencia f¨ uggvény alapján definiáljuk a vágási f¨ uggvények egy családját : C(λ) = πB dλ (pB : p) + πJ dλ (pJ : p) Láttuk, hogy λ = 1 estén a χ2 statisztikát kapjuk, λ = 0-nál pedig az entrópiát. További ismert vágási f¨ uggvényeket is megkaphatunk az er˝o divergencia f¨ uggvényb˝ol. Freeman-Tuckey statisztika adódik λ = −1/2-nél és a Cressie-Read λ = −2/3-nál [142]. 6.12. t´ etel. A C(λ) v´ ag´ asi f¨ uggvényoszt´ alyba tartoz´ o v´ ag´ asi f¨ uggvények teljes´ıtik a TaylorSilverman elv´ ar´ asokat. Ismert vágási f¨ uggvény az MPI index, amelyet az alábbi módon definiálnak :

M = π B πJ 1 −

k X j=1

pjB · pjJ /pj

Egy kis kézimunkával az MPI index a´talak´ıtható az alábbi formára : M = πB 2πJ2 d1 (pJ : p) + πJ 2πB2 d1 (pB : p), amely a D(λ) = πB 2πJ2 dλ (pJ : p) + πJ 2πB2 dλ (pB : p) = πB πJ C(λ) vágási f¨ uggvényosztály tagja. Szerencsére ez a f¨ uggvényosztály is rendben van az elvárásaink tekintetében : 6.13. t´ etel. A D(λ) v´ ag´ asi f¨ uggvényoszt´ alyba tartoz´ o v´ ag´ asi f¨ uggvények teljes´ıtik a TaylorSilverman elv´ ar´ asokat.


146

6.7.8. D¨ ont´ esi f´ ak ´ abr´ azol´ asa A döntési fa el˝oa´ll´ıtása után két fontos kérdés szokott felmer¨ ulni. Egyrészt tudni szeretnénk, hogy melyik levélbe esik sok tan´ıtó pont, azaz melyek azok a szabályok, amelyek sok tan´ıtó pontra érvényesek. Másrészt látni szeretnénk, hogy a levelek mennyire jól osztályoznak ; a tesztpontok köz¨ ul (ha vannak tesztpontok) milyen arányban osztályozott rosszul az adott levél. Az els˝o kérdés tehát azt vizsgálja, hogy mennyire jelent˝os az adott levél, a második pedig azt, hogy mennyire jó, mennyire igaz a levélhez tartozó szabály. Ezeket az értékeket azonnal látni szeretnénk, ha ránéz¨ unk egy döntési fára. Elterjedt módszer (ezt használják például a SAS rendszerében is), hogy minden levelet egy körcikkely reprezentál. A grapefruit mindennapos fo” A körcikkely nagysága arányos a levélhez tartozó tan´ıtó gyaszt´ asa harmad´ aval n¨ ovelhepontokkal, a sz´ıne pedig a levélhez tartozó szabály jóságát ti a mellr´ ak veszélyét – fiadja meg. Például minél sötétebb a sz´ın, annál rosszabb az gyelmeztetnek amerikai kutat´ ok.” osztályozás aránya. Egy ilyen a´brázolásra láthatunk példát Forrás : http://www.macosz.hu/ a következ˝o a´brán. grapefruit-daganat.html ¨ FOLYT. KOV.

6.7.9. Hanyag d¨ ont´ esi f´ ak A hanyag döntési fák olyan döntési fák, amelyben az azonos szinten elhelyezked˝o pontokban ugyanazt az attrib´ utumot vizsgáljuk. ¨ FOLYT. KOV.

6.8. Bayesi h´ al´ ozatok A bayesi hálózatok két fontos elvre ép´ıtenek. A maximum likelihood szerint egy elem osztályozásánál azt az osztályt fogjuk választani, amelynek a legnagyobb a valósz´ın˝ usége a megfigyelések és az elem további attrib´ utumai alapján. A bayes-tétel szerint pedig meghatározhatjuk a feltételes valósz´ın˝ uséget, ha ismer¨ unk néhány másik valósz´ın˝ uséget. Weka 3.5.7

Sz´ amos bayes-h´ al´ o alap´ u m´ odszer tal´ alhat´ o a weka.classifiers.bayes csomagban.

A Bayes-tétel seg´ıtségével meghatározható az optimális (lásd 6.2. szakasz) klasszifikációs szabály. Jelölj¨ uk Yi -vel azt, amikor a klasszifikálandó eset az i-edik osztályba tartozik (Y = y i ). Az elemek megfigyelhet˝o tulajdonságait az X vektor ´ırja le. Az egyszer˝ uség kedvéért a tévedés költsége legyen minden esetben azonos. Ekkor egy ismeretlen, X tulajdonság´ u példányt abba az osztályba (i) érdemes (optimális) sorolni, amelyikre P (Yi |X) maximális. A Bayes-szabály alapján P (X, Yi ) P (X|Yi ) P (Yi ) = . P (Yi |X) = P (X) P (X) Mivel P (X) minden i-re konstans, ezért elegend˝o P (X|Yi ) P (Yi )-t maximalizálni. P (Yi ) vagy a priori adott, vagy pedig a mintából a relat´ıv gyakoriságokkal egyszer˝ uen becs¨ ulhet˝o. Így már


147

,,csak” P (X|Yi )-t kéne meghatározni. Amennyiben k darab bináris magyarázó attib´ utumunk van, az Y pedig ` értéket vehet fel, k akkor `(2 −1) darab P (X|Yi ) értéket kellene megbecs¨ uln¨ unk. A 3.3.7 részben láttuk, hogy egy valósz´ın˝ uség megbecsléséhez relat´ıv gyakorisággal mennyi tan´ıtópontot kell venn¨ unk. A gyakorlati esetek többségében ennyi tan´ıtópont nem a´ll rendelkezés¨ unkre, ezért valamilyen feltétellel kell éln¨ unk a modell kapcsán. A na´ıv bayes-hálók feltételezik, hogy az egyes attrib´ utumok feltételesen f¨ uggetlenek egymástól.

6.8.1. Na´ıv Bayes-h´ al´ ok A na´ıv bayes-hálók olyan feltételezéssel élnek, amelynek seg´ıtségével a `(2 k −1) darab megbecs¨ ulend˝o paraméter száma ` · k-ra csökken. 6.14. defin´ıci´ o. Legyen X, Y és Z h´ arom val´ osz´ın˝ uségi v´ altoz´ o. Az X feltételesen f¨ uggetlen Y -t´ ol adott Z esetén, ha P(X = xi |Y = yj , Z = zk ) = P(X = xi |Z = zk ) minden lehetséges xi , yj , zk h´ armasra. Ha például az es} o, vihar, vill´ aml´ as diszkrét valósz´ın˝ uségi változót tekintj¨ uk, akkor a vihar feltételesen f¨ uggetlen az es} ot} ol, ha a vill´ aml´ ast ismerj¨ uk. A vill´ aml´ as ugyanis vihart okoz (a vill´ aml´ as hiánya pedig azt jelenti nincs vihar), ezért az es} o ténye semmilyen további információval nem szolgál a viharra vonatkozóan. Természetesen van o¨sszef¨ uggés a vihar és az es} o között, de nincs közt¨ uk feltételes o¨sszef¨ uggés, ha a vill´ aml´ as értékét ismerj¨ uk. A na´ıv Bayes klasszifikáló feltételezése szerint egy osztályon bel¨ ul az attrib´ utumok feltételesen f¨ uggetlenek egymástól. Ekkor a P (X|Y ) valósz´ın˝ uség kifejezhet˝o a P (X j |Y ) valósz´ın˝ uségek szorzataként, hiszen P (X1 , X2 |Yi ) = P (X1 |X2 , Yi ) P (X2 |Yi ) = P (X1 |Yi ) P (X2 |Yi ) Az els˝o egyenl˝otlenségnél a valósz´ın˝ uségek a´ltalános tulajdonságát használtuk fel, a másodiknál pedig a feltételes f¨ uggetlenséget. Könny˝ u belátni, hogy k magyarázó változó esetén a következ˝ot kapjuk k Y P (Xj = xj |Yi ) . P ((X1 , X2 , . . . , Xk ) = (x1 , x2 , . . . , xk ) |Yi ) = j=1

A P (Xj = xj |Yi ) valósz´ın˝ uségek a mintából becs¨ ulhet˝ok.

kateg´ oria t´ıpus´ u attrib´ utum Amennyiben az Xj kategória t´ıpus´ u, akkor P (Xj = xj |Yi ) valósz´ın˝ uséget a relat´ıv gyakorisággal közel´ıtj¨ uk, tehát meghatározzuk a relat´ıv arányát az X j attrib´ utumában xj értéket felvev˝o elemeknek a Yi osztály´ u elemek között. Problémát jelent, ha valamelyik relat´ıv gyakoriság nulla, mert ekkor a szorzat is nulla lesz a többi tagtól f¨ uggetlen¨ ul. Legegyszer˝ ubb megoldás, hogy az adott attrib´ utum minden értékének el˝ofordulásáhot hozzáadunk egyet. Ha volt elég mintánk, akkor a valósz´ın˝ uségek alig torzulnak, viszont siker¨ ul kik¨ uszöböln¨ unk, hogy a nulla tag miatt a többi relat´ıv gyakoriságot nem vessz¨ uk


148

figyelembe. Ha egy adott osztályba tartozó elemek egy attrib´ utuma három értéket vehet fel és az el˝ofordulások : 0, 150, 250. Akkor 0, 150/400, 250/400 helyett 1/403, 151/403, 251/403 értékeket használunk. Erre a technikára az irodalomban, mint Laplace estimation hivatkoznak. Egy kifinomultabb módszer, ha egy helyett pk -t adunk a relat´ıv gyakorisághoz, ahol pk -val jelölj¨ uk a k-adik attrib´ utumérték relat´ıv gyakoriságát a teljes tan´ıtóhalmazban (tehát nem csak a Yi kategóriáj´ u tan´ıtóhalmazban). sz´ am t´ıpus´ u attrib´ utum Amennyiben Xj szám t´ıpus´ u és tudjuk a P (Xj |Yi ) eloszlásának t´ıpusát, akkor a keresett valósz´ın˝ uséghez sz¨ ukséges eloszlásparamétereket statisztikai módszerrel becs¨ ulj¨ uk. Ha például normális eloszlással van dolgunk, akkor elég meghatároznunk a várható értéket és a szórást, ezekb˝ol tetsz˝oleges értékhez tartozó valósz´ın˝ uség a s˝ ur˝ uséP gf¨ uggvényb˝ol közvetlen adódik. A |Yi | k ¯ várható értéket a mintaátlaggal (empirikus közép : Xi j = k=1 xij /|Yi |), a szórásnégyzetet a P|Yi | k ∗2 2 ¯ korrigált empirikus szorásnégyzettel (sij = k=1 (xij − Xj ) /(|Yi | − 1)) becs¨ ulj¨ uk. A keresett valósz´ın˝ uséget a 1 ∗2 ¯ 2 P (Xj = xj |Yi ) = ∗ √ e(xj −Xij ) /2sij sij 2π képlet adja. Weka 3.5.7 weka.classifiers !bayes.NaiveBayesSimple A na´ıv bayesi oszt´ alyoz´ ot, amely a sz´ am t´ıpus´ u attrib´ utumokn´ al norm´ alis eloszl´ ast feltételez a weka.classifiers.bayes.NaiveBayesSimple oszt´ aly implement´ alja. A weka.classifiers.bayes.NaiveBayes a normalit´ asra tett feltételt enyh´ıti. Ez az oszt´ alyoz´ o u ń. kernel becsl˝ ot haszn´ al a keresett val´ osz´ın˝ uségek meghat´ aroz´ as´ ahoz. Ha pedig a useSupervisedDiscretization paramétert igazra a ´ll´ıtjuk, akkor a sz´ am t´ıpus´ u attrib´ utumokat kateg´ oria t´ıpus´ uv´ a alak´ıtja egy fel¨ ugyelt diszkretiz´ al´ o m´ odszerrel ( weka.filters.supervised.attribute.Discretize sz˝ ur˝ o l´ asd a 47 oldal).

A nav bayesi osztályozó hátrányra, hogy az feltételes f¨ uggetlenséget és egyenl˝oséget feltételez. Sokat jav´ıthatunk a na´ıv bayesi osztályozók pontosságán, ha el˝ofeldolgozás során meghatározzuk a fontos attrib´ utumokat, tehát azokat, amelyekr˝ol u ´ gy gondoljuk, hogy nem f¨ uggetlenek az osztályattrib´ utumtól. Több kutató arról számol be, hogy a megfelel˝o attrib´ utumkiválasztással páros´ıtott na´ıv bayesi osztályozó felveszi a versenyt a bonyolultabb, u ´ jabb módszerekkel.

6.8.2. Na´ıv Bayes-h´ al´ ok ´ es a logisztikus regresszi´ o kapcsolata Ebben a részben belátjuk, hogy amennyiben minden magyarázó attrib´ utum valós t´ıpus´ u, akkor a normális eloszlást feltételez˝o na´ıv bayes osztályozó (GNB – Gaussian Naive Bayes)


149

GNB egy lineáris osztályozó, amely nagyon hasonl´ıt a logisztikus regresszióra. Foglaljuk o¨ssze milyen feltételezésekkel él a GNB : – Az Y bináris valósz´ın˝ uségi változó, melynek eloszlása pY paraméter˝ u binomiális eloszlás. – Minden Xj magyarázó változó valós t´ıpus´ u. – Xj |Y = yi feltételes valósz´ın˝ uségi változó µji , σj paraméter˝ u normális eloszlással, tehát P(Xj = xj |Y = yi ) =

√1 2e 2πσj

−

(xj −µji )2 2σ 2 j

– a magyarázó változók adott Y esetén feltételesen f¨ uggetlenek egymástól. Vegy¨ uk észre, hogy az Xj |Y = yi feltételes valósz´ın˝ uségi változó szórása attrib´ utumról attrib´ utumra más lehet és nem f¨ ugg Y -tól. Célunk belátni, hogy ezek a feltevések hasonló alak´ u P(Y |X)-t adnak, mint azt a logisztikus 1 regresszió teszi (emlékeztet˝oként : P(Y = 1|X) = 1+e−xT β ). Induljunk ki a bayes szabályból P (Y = 1)P (X|Y = 1) P (Y = 1)P (X|Y = 1) + P (Y = 0)P (X|Y = 0) 1 1 = = P (Y =0)P (X|Y =0) P (Y =0)P (X|Y =0) 1 + P (Y =1)P (X|Y =1) 1 + exp ln P (Y =1)P (X|Y =1)

P(Y = 1|X) =

most használjuk ki a feltételes f¨ uggetlenséget : P(Y = 1|X) = =

1 1 + exp ln

P (Y =0) P (Y =0)

+

1 Y 1 + exp ln 1−p + pY

P

P

j

j

P (X |Y =0)

ln P (Xjj |Y =1)

(6.8)

P (X |Y =0)

ln P (Xjj |Y =1)

Vizsgáljuk meg közelebbr˝ol a szummában szerepl˝o tagot :

ln

2πσj2

exp −

(Xj −µj0 )2 2σj2

2πσj2

exp −

(Xj −µj1 )2 2σj2

√1

P (Xj |Y = 0) = ln P (Xj |Y = 1) √1 =

= ln exp

(Xj − µj1 )2 − (Xj − µj0 )2 2σj2

µ2j1 − µ2j0 (2Xj (µj0 − µj1 ) + µ2j1 − µ2j0 µj0 − µj1 = X + j 2σj2 σj2 2σj2

Ha ezt visszahelyettes´ıtj¨ uk a 6.8 egyenletbe, akkor látható, hogy P(Y = 1|X) tényleg az X j attrib´ utumok s´ ulyozott o¨sszegének nemlineáris f¨ uggvényeként adódik : P(Y = 1|X) = ahol a s´ ulyok βj =

1 1 + eβ0 +xT β

µj0 − µj1 , σj2

,


150

a torz´ıtás pedig : β0 = ln

1 − pY X µ2j1 − µ2j0 + pY 2σj2 j

¨ Osszegezz¨ uk a hasonlóságokat és a k¨ ulönbségeket a GNB és a logisztikus regresszió között. Legföbb hasonlóság, hogy mind a két módszer lineáris szeparálást végez, azaz az osztályozáshoz a magyarázó attrib´ utumok s´ ulyozott o¨sszegét veszi alapul. K¨ ulönbség van azonban a s´ ulyok meghatározásában. A logisztikus regresszió közvetlen¨ ul becsli a s´ ulyokat, m´ıg a GNB normális eloszlást feltételezve megbecsli a várható értéket és a szórást, majd ez alapján szám´ıt egy s´ ulyt. A logisztikus regresszió tehát közvetlen¨ ul becsli P(Y |X)-et, m´ıg a bayesi osztályozó ezt közvetve teszi, P(Y ) és P(X|Y ) becslésével. Be lehet látni, hogy amennyiben fennáll a normalitásra tett feltétele a GNB-nek, akkor a GNB és a logisztikus regresszió ugyanazt azt osztályozót (azaz ugyanazokat a s´ ulyokat) eredményezik. A logisztikus regresszió – mivel nem él semmilyen feltételezéssel az adatra vonatkozóan – egy a´ltalánosabb módszernek tekinthet˝o, mint a GNB. Ha nem teljes¨ ul a normalitásra tett feltétel, akkor a GNB torz ereményt ad, m´ıg a logisztikus regresszió adaptálódik a helyzethet”. ” A legközelebbi szomszéd módszernél már megtanultuk, hogy az a´ltalánosabb módszer nem tekinthet˝o jobb módszernek (ha ez nem ´ıgy lenne, akkor mindenre a legközelebbi szomszéd módszert használnánk, hiszen ez a legáltalánosabb módszer). Az a´ltalános módszerek hajlamosak a t´ ultanulásra. Számos ´ırás sz¨ uletett, amely pont a logisztikus regresszió t´ ultanulásának hajlamát próbálja visszafogni k¨ ulönféle b¨ untet˝of¨ uggvények bevezetésével. Az a´ltalános módszerek további hátránya, hogy jóval több tan´ıtópontra van sz¨ ukség¨ uk, mint azoknak, amelyek valamilyen feltételezéssel élnek a háttérben megb´ ujó modellel kapcsolatban. Nem meglep˝o ezért, hogy k¨ ulönbség van a tanulás konvergenciájának sebességében is. A logisztikus regressziónak O(n) a bayesi hálónak csak O(log n) tan´ıtópontra van sz¨ uksége ugyanaakkora pontosság eléréséhez (amennyiben a normalitásra tett feltétel teljes¨ ul).

6.8.3. Bayes hihet˝ os´ egi h´ al´ ok A Bayes hihet˝oségi hálók (Bayesian belief networks) a f¨ uggetlenségre tett feltételt enyh´ıtik. Lehet˝ové teszik az adatbányásznak, hogy egy irány´ıtott, körmentes gráf seg´ıtségével a változók közötti f¨ ugg˝oségi strukt´ urát el˝ore megadja. A gráf csomópontjai megfigyelhet˝o és nem megfi´ gondoljuk, hogy a gráf a f¨ gyelhet˝o, de feltételezett (rejtett) változók lehetnek. Ugy ugg˝oségeket jól le´ırja, azaz P ((Z1 , Z2 , . . . , Zs ) = (z1 , z2 , . . . , zs )) =

s Y j=1

P (Zj = zj |par (Zj ))

teljes¨ ul, ahol par (Zj ) a Zj cs´ ucs sz¨ uleit (a gráfban közvetlen¨ ul belemutató cs´ ucsok halmazát jelöli). Minthogy a háló strukt´ urája a teljes eloszlást le´ırja, ezért tetsz˝oleges Z j cs´ ucsokat kijelölhet¨ unk outputnak / el˝orejelzend˝onek. Ha nincsenek rejtett változók, akkor a sz¨ ukséges P (Zj = zj |par (Zj )) valósz´ın˝ uségek közvetlen becs¨ ulhet˝ok a mintából. Ha a háló rejtett változókat is tartalmaz, akkor a gradiens módszer egy változata alkalmazható. Vég¨ ul olyan eljárások is ismertek, amelyek seg´ıtségével a hálózat topológiája a tanuló példákból kialak´ıtható, nem feltétlen¨ ul sz¨ ukséges azt el˝ore megadni.


151

6.9. Oszt´ alyoz´ ok kombin´ al´ asa 6.9.1. Bagging 6.9.2. Randomiz´ al´ as 6.9.3. Boosting

6.10. Oszt´ alyoz´ ok ki´ ert´ ekel´ ese Az adatbányászati modellekre – sajnos – ritkán a´llnak rendelkezésre olyan módszerek, amelyek seg´ıtségével az illeszkedés jóságáról statisztikai teszttel dönthet¨ unk (a kivételeket lásd például [23] cikkben). Egy lehetséges a´ltalános megközel´ıtést Rissanen adott meg [2]. A ,,legrövidebb le´ırás”9 elve szerint egy adathalmazt magyarázó elméletek köz¨ ul az a leginkább elfogadhatóbb, amelynél o¨sszesen a legkevesebb bit sz¨ ukséges a modell és az adatoknak a modell seg´ıtségével való le´ırásához. Már eml´ıtett¨ uk, hogy a t´ ultanulás miatt nem célszer˝ u a tan´ıtóhalmazt használni az osztályozó pontosságának megállap´ıtásához. A tan´ıtóhalmazon szám´ıtott hibát resubstitution error, azaz visszahelyettes´ıtéses hib´ anak nevezz¨ uk. A leggyakrabban alkalmazott módszer a következ˝o. Adatainkat három részre osztjuk (általában 70%-20%-10% arányban). Ugyanazon tan´ıtó adatokon több konkurens modellt ép´ıt¨ unk, majd az ellen˝orz˝o adathalmaz seg´ıtségével kiválasztjuk a legjobbat, amelyet alkalmazni fogunk. A végs˝o modell teljes´ıtményét, pedig egy – az el˝oz˝o kett˝ot˝ol diszjunkt – teszt adatbázison mérj¨ uk. Ismételt mintavételezési technikákkal csökkenthetj¨ uk a fenti eljárás adatigényét, illetve több klasszifikáló eredményeinek kombinálásával is jav´ıtható az el˝orejelzés pontossága [73]. A három részre osztós technikánál a tan´ıtó halmazba csak az adatok 70%-a ker¨ ul. Minél kisebb a tan´ıtó adathalmaz, annál kevésbé lehet¨ unk biztosak, hogy az osztályozónál nem lépett fel t´ ultanulás. Továbbá minél kisebb az adat, annál kevésbé reprezentat´ıv a rejtett információ, ´ıgy annál nehezebb megtanulni. A reprezentativitásnál nem elég figyelembe venni az adatok méretét. Bonyolultabb, sok szabályt tartalmazó modelleknek nagyobb tan´ıtóhalmazra van ´ sz¨ ukség¨ uk. Erezz¨ uk, hogy kevesebb tan´ıtópontra van sz¨ ukség¨ unk bináris osztályozás esetén, mint akkor, amikor 20 k¨ ulönböz˝o osztályt hozhatunk létre. ´ Honnan tudjuk eldönteni, hogy az adathalmazunk egy része reprezentat´ıv-e ? Altal´ anosan sehogy. Van azonban egy egyszer˝ u vizsgálat, amelyet érdemes elvégezni. A tan´ıtó és a tesztel˝o adathalmazban az egyes osztályok eloszlása nagyjából meg kell egyezzenek. Nem várhatunk jó osztályozást, ha a tan´ıtóhalmazba nem ker¨ ult valamely osztályból egyetlen elem sem. Az eredeti adathalmaz olyan particionálását (tan´ıtó és teszthalmazra), amelyre teljes¨ ul, hogy az osztályok relat´ıv el˝ofordulása a tan´ıtóhalmazban és a teszthalmazban megegyeznek, rétegzett (stratified) particion´ al´ asnak/mintavételezésnek h´ıvjuk. Nem mindig a´ll rendelkezés¨ unkre annyi adat, hogy a három részre osztás után is azt tudjuk mondani, hogy a tan´ıtó adathalmaz elég reprezentat´ıv. Kisebb adathalmazok esetén ismételt mintavételezéssel szoktak seg´ıteni a helyzeten. A következ˝okben ezeket a technikákat tekintj¨ uk a´t. 9

Minimum Description Length, MDL.


152

Az osztályozók legfontosabb mér˝oszáma a hibaar´ any, amely a tévesen osztályozott objek´ tumok számát adja meg. A hibaarány inverze a pontosság. Erdekes lehet tudni, hogy mennyi a hibaarány a tan´ıtóhalmazon, de a t´ ultanulás veszélye miatt a hibaarányt máshogy szokás mérni. Ism´ etelt mintav´ etelez´ es Az eredeti adathalmaz nagyobb részét (általában kétharmadát) válasszuk tan´ıtóhalmaznak, a maradékon határozzuk meg a hibaarányt. Ismételj¨ uk többször az eljárást k¨ ulönböz˝o, véletlenszer˝ uen választott tan´ıtóhalmazokon. Az osztályozás végs˝o hibaarányát az egyes felosztásokból származó hibaarányok a´tlagaként adjuk meg. Kereszt-valid´ aci´ o´ es a leave-one-out Osszuk fel a tan´ıtóhalmazt N részre. Az adott osztályozó módszerrel N k¨ ulönböz˝o tan´ıtást fogunk végezni. Minden tan´ıtásnál egy rész lesz a tesztel˝ohalmaz a többi uniója pedig a tan´ıtóhalmaz. Minden tan´ıtásnál más tesztel˝ohalmazt választunk. A végs˝o hibaarányt megint az egyes hibaarányok a´tlaga adja. Igen elterjedt (habár elméletileg nem megalapozott), hogy N értékének 10-et adnak meg. A kereszt-validáció egy speciális esete, amikor a N értéke megegyezik a tan´ıtópontok számával, azaz csak egy elemen tesztel¨ unk. Ezt a módszert leave-one-out-nak (egy kimarad) h´ıvják. Ennek a módszernek két el˝onye és két hátránya van. El˝ony, hogy a módszer teljesen determinisztikus, továbbá a tan´ıtáshoz a lehet˝o legtöbb információt használja. Hátrány ugyanakkor, hogy a tan´ıtást sokszor kell elvégezni, ami nagyon költséges lehet, továbbá a teszteléshez használt adathalmaz biztos, hogy nem rétegzett. Egyes kutatók u ´ gy vélik, hogy a kereszt-validáció jelent˝osége t´ ul van értékelve, hiszen elméletileg nem lehet bizony´ıtani, hogy megb´ızhatóbb erdeményt szolgál, mint az egyszer˝ u oszd ketté (tan´ıts, majd tesztelj) módszer. Bootstrap Az eddigi megoldásokban egy tan´ıtópontot egyszer használtunk fel a résztan´ıtások során. A boostrap visszatevéses mintavételezésen alapul, amely eredményeképpen a tan´ıtóhalmazban (a halmaz szó használata itt most helytelen) ugyanaz az elem többször is el˝ofordulhat. A bemeneti adathalmaz méretét jelölj¨ uk n-nel. A módszer egyszer˝ u. Válasszunk visszatevéses mintavételezéssel n elemet. Lesznek olyan elemek, amelyeket többször választottunk és lesznek olyanok is, amelyeket egyszer sem. Azok az elemek adják a teszthalmazt, amelyeket egyszer sem választottunk. Annak a valósz´ın˝ usége, hogy egy elem a tan´ıtóhalmazban lesz, közel 63% nagy n esetén, hiszen annak valósz´ın˝ usége, hogy egy elemet nem választunk : 1−

1 n → e−1 ≈ 0.368. n

A bootstrap esetében a hibaarányt a tan´ıtó és a teszthalmazon szám´ıtott hibaarányok s´ ulyozott o¨sszege adja, ahol a s´ ulyok 1 − e−1 és e−1 : e = (1 − e−1 )eteszt + e−1 etan´ıtó


153

A bootstrap nem feltétlen¨ ul rétegzett tan´ıtó mintát hoz létre. S˝ot valósz´ın˝ u, hogy a tan´ıtó minta torz lesz, hiszen lesznek olyan tan´ıtó pontok, amelyek nem ker¨ ulnek bele a tan´ıtó halmazba és olyanok is lesznek, amelyek többször is szerepelni fognak. A bootstrapet is többször ismételhetj¨ uk, k¨ ulönböz˝o mintákkal és a végs˝o hibát az egyes hibák a´tlagaként szám´ıtjuk. Jogos az a kétely a bootstrappel kapcsolatban, hogy torz adatokon torz osztályozók fognak létrejönni. Ezek hibáinak s´ ulyozott a´tlaga pedig nem feltétlen¨ ul közel´ıti a helyes osztályozás hibáját. Weka 3.5.7

A wek´ aban az oszt´ alyoz´ as kiértékelésének m´ odj´ at a Test options panelen adhatjuk meg. Use training set esetén a hib´ at és egyéb paramétereket a tan´ıt´ ohalmazon mérj¨ uk. Supplied test set estén k¨ ul¨ on teszthalmazt adhatunk meg, Cross-validation v´ alaszt´ asakor kereszt-valid´ aci´ ot haszn´ alunk. A Folds paraméterrel adhatjuk meg, hogy h´ any részre ossza a weka a tan´ıt´ ohalmazt. Ha a hagyom´ anyos tan´ıt´ ohalmaz, teszthalmaz kettéoszt´ ast k´ıv´ anjuk haszn´ alni, akkor v´ alasszuk a Percentage split opci´ ot. Ilyenkor megadhatjuk tan´ıt´ ohalmazba ker¨ ul˝ o elemek sz´ azalékos ar´ any´ at.

´ 6.10.1. Ertekez´ es A fenti módszerek az egyszer˝ u oszd ketté, tan´ıts majd szám´ıts hibát” megközel´ıtés azon ” gyenge pontját próbálják orvosolni, hogy a tan´ıtóhalmaz vagy a teszthalmaz (vagy mindkett˝o) torz lehet, valamely szabály szempontjából. Ebb˝ol adódóan hamis hibaarányt fog szolgáltatni. Sajnos a fenti módszerek ugyan´ ugy adhatnak rossz eredményt. Vegy¨ unk egy egyszer˝ u példát, amelyben bináris osztályozót kész´ıt¨ unk, de az adatok teljesen véletlenszer˝ uek nincs semmilyen o¨sszef¨ uggés az attrib´ utumok és az osztály között. Döntési fa ebben az esetben egyetlen gyökércsomópontot tartalmazna és minden objektumot abba az osztályba sorolna, amelyikbe több tan´ıtópont tartozik (többségi szavazás). Ha a tan´ıtópontok száma páros és a tan´ıtópontok fele-fele tartozik az egyik ill. a másik osztályba, akkor a leave-one-out értékel˝o 100%-os hibát a´llap´ıtana meg az elvárt 50% helyett. Ha az osztályozónk olyan, hogy teljesen megtanulja (megjegyzi) az elem, osztály hozzárendelést, azaz a tan´ıtóhalmazon 100%-os pontosságot produkál, akkor a bootstrap szerint a hiba (1 − e−1 ) · 0.5 + e−1 · 0, ami az 50%-nál e−1 /2-vel kisebb. Tegy¨ uk fel, hogy a bináris osztályozónk p valósz´ın˝ uséggel ad helyes eredményt, tehát a pontossága p. Adott N tesztpont mellett a helyesen osztályozott pontok számát jelölj¨ uk f -fel. A helyesen osztályozott pontok száma egy N, p paraméter˝ u, binomiális eloszlás´ u valósz´ın˝ uségi változó. Tetsz˝oleges α értékhez (1 − α a próba szintje) meg tudjuk határozni az elfogadási tartományt a helyesen osztályozott pontok számára vonatkozóan (ezt h´ıvják bináris tesztnek, lásd a 2.6.2 rész). Határozzuk meg azt az f /N -nél kisebb, legkisebb p-t (jelölj¨ uk p l -el), amelyre f az elfogadási tartományba esik. Határozzuk meg ezenk´ıv¨ ul azt az f /N -nél nagyobb, legnagyobb p-t (jelölj¨ uk pu -val), amelyre f az elfogadási tartományba esik. A tesztel˝o pontok alapján csak azt tudjuk elmondani, hogy az igazi p a [pl , pu ] intervallumba esik. A fenti módszer meglehet˝osen szám´ıtásigényes. A pl , pu értékek meghatározásának nehézsége abból adódik, hogy a p a valós számok halmazából ker¨ ul ki, a valósz´ın˝ uségi események (és ´ıgy f és az elfogadási tartományok korlátai is) azonban egész számok. A pontosság rovására a


154

[pl , pu ] intervallumok meghatározása közvetlen szám´ıtható, amennyiben a binomiális eloszlást N p, N p(1 − p) paraméter˝ u normális eloszlással közel´ıtj¨ uk.

6.10.2. Hiba m´ er´ ese regresszi´ o eset´ eben Amikor a magyarázandó attrib´ utum szám t´ıpus´ u, akkor a leggyakrabban használt hiba a négyzetes hibaátlag (vagy annak gyöke). Az elterjedt használat oka, hogy a négyzetes hibaösszeg könnyen kezelhet˝o matematikailag – gondoljuk csak a lineáris regresszióra, amely sok regressziós módszer kiindulópontjaként szolgál. Ha csökkenteni szeretnék a k¨ ulönc pontok a´ltal okozott hiba mértékét, akkor használhatunk a´tlagos hibak¨ ulönséget is. Többször láttuk, hogy nem az abszolut hiba érdekel minket, hanem a relat´ıv hiba. Azt gondoljuk, hogy ugyanakkora hibát vét¨ unk, ha 200 helyett 220-at jósolunk, mint amikor 1 helyet 1.1-et. A fenti hibamértékek relat´ıv változatainak pontos képlete a következ˝o táblázatban látható. Valamely teszthalmazban (amely származhat kereszt-validációból vagy boorstrapb˝ol) az i-edik pont osztályértékét yi -vel, a modell a´ltal jósolt osztályértéket ybi -vel jelölj¨ uk . hibamérték

képlet

a´tlagos négyzetes hiba

(y1 −b y1 )2 +···+(yn −b y n )2 n

a´tlagos négyzetes hibagyök abszol´ ut hibaátlag relat´ıv négyzetes hiba relat´ıv négyzetes hibagyök relat´ıv abszol´ ut hiba korrelációs egy¨ uttható

q

(y1 −b y1 )2 +···+(yn −b y n )2 n

|y1 −b y1 |+···+|yn −b yn | n

(y1 −b y1 )2 +···+(yn −b y n )2 (y1 −¯ y )2 +···+(yn −¯ y )2

q

(y1 −b y1 )2 +···+(yn −b y n )2 (y1 −¯ y )2 +···+(yn −¯ y )2

|y1 −b y1 |+···+|yn −b yn | |y1 −¯ y |+···+|yn −¯ y| r

¯b)+···+(yn −¯ ¯b) (y1 −¯ y )(b y1 −y y )(b yn −y

(y1 −¯ y )2 +···+(yn −¯ y )2

¯b)2 +···+(b ¯b)2 (b y1 −y yn −y

A korrelációs egy¨ uttható (amely m´ınusz egy és plusz egy közé esik) kilóg a sorból két dolog miatt. Egyrészr˝ol ez a mérték skála invariáns, azaz, ha minden jósolt értéket megszorzunk egy adott konstanssal, akkor a korrelációs egy¨ uttható nem változik. Legtöbb alkalmazásban nem ezt szeretnénk. Másrészr˝ol minél jobb az osztályozó módszer, annál közelebb lesz az egy¨ uttható egyhez. A többi mérték értéke 0 lesz a tökéletes osztályozó estében. Az alkalmazási ter¨ ulet tippet adhat arra, hogy melyik hibamértéket használjuk, de a gyakolat azt mutatja, hogy osztályozók rangsorálásánál ugyanazt a sorrendet szokták adni az egyes mutatók. Talán a f˝o kérdés, hogy az teljes hiba mérésénél az egyes hibák abszolut értékét vagy négyzetét használjuk.

6.10.3. Hiba m´ er´ ese val´ osz´ın˝ us´ egi d¨ ont´ esi rendszerek eset´ en Valósz´ın˝ uségi döntési rendszerek esetén a kimenet egy valósz´ın˝ uségi eloszlás, nem pedig egy konkrét osztály. Nem azt mondjuk, hogy egy adott feltétellel rendelkez˝o u ¨ gyfél kockázatos, hanem azt, hogy 80%-ot adunk annak valósz´ın˝ uségére, hogy kockázatos és 20%-at arra, hogy nem.


155

Ha az osztályok száma k, akkor az osztályozás eredménye egy k dimenziós valósz´ın˝ uségi (elemeinek o¨sszege 1) vektor. Hogyan határozzuk meg a hibát valósz´ın˝ uségi osztályozás esetében ? N´ egyzetes vesztes´ egf¨ uggv´ eny Tetsz˝oleges elem konkrét osztályát is le´ırhatjuk egy valósz´ın˝ uségi vektorral. Ha az elem a jedik osztályba tartozik, akkor a valósz´ın˝ uségi vektor j-edik eleme legyen 1, a többi pedig nulla. Az osztályozás hibája, ekkor az elem osztályához tartozó vektor és az osztályozás eredményeként ´ kapott vektor k¨ ulönbségének normája lesz. Altal´ aban az euklideszi normát használjuk és a négyzetgyök szám´ıtásától eltekint¨ unk : Er(p, a) =

k X i=1

(pi − ai )2 .

Az ai -kPköz¨ ul egyetlen érték 1, a többi nulla, ezért a négyzetes veszteségf¨ uggvény a´t´ırható 1 − 2pj ki=1 p2i , ahol j-vel az osztály sorszámát jelölt¨ uk. Ha az osztályattrib´ utum teljesen f¨ uggetlen a többi attrib´ utumtól, akkor a négyzetes veszteségf¨ uggvény azokat az osztályozásokat fogja jutalmazni, amelyek a bemenett˝ol f¨ uggetlen¨ ul olyan valósz´ın˝ uségi vektorokat a´ll´ıtanak el˝o, amely megfelel az osztályattrib´ utum eloszlásf¨ uggvényének, azaz a kimeneti vektor i-edik eleme adja meg az i-edik osztály el˝ofordulásának valósz´ın˝ uségét. Nem nehéz ezt az a´ll´ıtást belátni. Jelölj¨ uk az i-edik osztály ∗ uggvénynek egy el˝ofordulásának valósz´ın˝ uségét pi -vel. A várható értéke a négyzetes veszteségf¨ adott tesztelem esetén : E

k X i=1

k k k X X X 2 2 2 ∗ ∗ (pi −ai ) = E[pi ]−2E[pi ai ]+E[ai ] = (pi −2pi pi +pi )= (pi −p∗i )2 +p∗i (1−p∗i ) . 2

i=1

i=1

i=1

Felhasználtuk, hogy az ai várható értéke p∗i , továbbá, hogy a2i = ai hiszen ai értéke csak egy vagy nulla lehet. A végs˝o képletb˝ol látszik, hogy a várható érték akkor lesz minimális, ha p i = p∗i minden i-re.

6.10.4. Oszt´ alyoz´ ok hat´ ekonys´ ag´ anak mutat´ osz´ amai A legfontosabb mutatószám az osztályozó pontossága, amely a jól osztályozott pontok számának arányát adja meg az o¨sszes pont számához viszony´ıtva. Többet mond az u ´ n. keveredési m´ atrix (confusion matrix ), amely annyi sorból és oszlopból a´ll, amennyi az osztályok száma. Az i-edik sor j-edik eleme adja meg azoknak a pontoknak a számát, amelyeket az osztályozó a j-edik osztályba sorol, holott azok az i-edik osztályba tartoznak. A diagonálisban található elemek adják meg a helyesen osztályozott pontok számát. Egy keverési mátrixot láthatunk a következ˝o a´brán.


156 Jósolt osztály P

a

b

c

a

88

10

2

100

tényleges

b

14

40

6

60

osztály

c 18 10 12 P 120 60 20

40

Weka 3.5.7 Osztályozás esetén a weka alapértelmezés szerint kirajzolja a keveresési m´ atrixot a kimeneti panelen (Classifier output). Ha erre nem vagyunk k´ıv´ ancsiak, akkor a Test options panelen klikkelj¨ unk a More options... felirat´ u gombra. Ez felhozza a Classifier evaluation options panelt, itt t¨ or¨ olj¨ uk az output confusion matrix kijel¨ olését. Itt a ´ll´ıthatjuk t¨ obbek k¨ oz¨ ott azt is, hogy megjelenjen-e az oszt´ alyoz´ o a ´ltal el˝ oa ´ll´ıtott modell ( d¨ ontési szab´ alyok, f´ ak, feltételes val´ osz´ın˝ uségi t´ abl´ ak – bayesi oszt´ alyoz´ ok esetében, stb.).

A pontosság megtéveszt˝o lehet. A magas pontosság nem biztos, hogy a szofisztikált módszer¨ unk eredménye. Ha például bináris osztályzás esetében az egyik osztály el˝ofordulásának valósz´ın˝ usége 90%, akkor egy 88% pontosság´ u osztályozó rossz osztályozó, hiszen pontossága rosszabb, mint annak a butuska osztályozónak, amely mindig a gyakori osztályra tippel. Másik butuska osztályozó a véletlen osztályozó, amely a C osztály p c valósz´ın˝ uséggel választja, ahol pc a C osztály el˝ofordulásának valósz´ın˝ usége. A valósz´ın˝ uséget relat´ıv gyakorisággal közel´ıtik. A véletlen osztályozó várható pontossága 0.9 ∗ 0.9 + 0.1 ∗ 0.1 = 82%. Egy osztályozó kappa statisztikája az osztályozó pontosságát a véletlen osztályozóhoz hasonl´ıtja. Tegy¨ uk fel, hogy a tan´ıtóhalmazon az egyes osztályok relat´ıv gyakorisáP gai p 1 , p2 , . . . , pk és a tan´ıtóhalmazon az osztályok el˝ofordulása n1 , n2 , . . . , nk . Legyen N = ki=1 ni és M = P = ki=1 ni pi . A kappa statisztikát ekkor a T −M N −M

adja, ahol T -vel a helyesen osztályzott pontokat jelölj¨ uk. A kappa statisztika nulla és egy közé esik. A véletlen osztályozó kappa statisztikája nulla, a tökéletes osztályozóé pedig egy. Weka 3.5.7

A kimeneti panelen (Classifier output) mindig megjelenik a j´ ol/rosszul oszt´ alyozott és a nem oszt´ alyozhat´ o elemek sz´ ama (Correctly/Incorrectly Classified Instances, UnClassified Instances) és ezen értékek o ¨sszes tan´ıt´ oponthoz vett ar´ anya, a kappa statisztika, az abszolut hib´ ak a ´tlaga (Mean absolute error – l´ asd 154 oldal), a négyzetes hiba´ atlag (Root mean squared error), a relat´ıv abszolut hiba´ atlag (Relative absolute error), a relat´ıv négyzetes hiba´ atlag (Root relative squared error).


157

Bináris osztályozás esetén, amikor az osztályozó kimenete nulla vagy egy (igaz/hamis, vagy pozit´ıv/ negat´ıv) további elnevezéseket kell megismern¨ unk. A jól osztályozott pontok számát TP-vel (True Positiv) és TN-nel (True Negative) jelölj¨ uk attól f¨ ugg˝oen, hogy melyik osztályba tartoznak. A rosszul osztályozott pontok jelölése FP, FN (False Positive, False Negative). A következ˝o keveredési mátrix o¨sszefoglalja a jelöléseket : tényleges osztály 1

0 FP

jósolt

1

TP

osztály

0

FN TN

A felidézést vagy megb´ızhat´ os´ agot (angolul recall vagy true positive rate), amelyet bináris P osztályozásnál érzékenységnek (sensitivity) is h´ıvnak az R = T PT+F hányados adja. A selejN FP tet (fallout) a F P +T N , a precisiont (a precision és az accuracy angol szavak - amelyek az P adatbányászatban mást jelentenek - magyar megfelel˝oje a pontosság) a P = T PT+F adja. E két P érték parametrikus harmonikus közepét F -mértéknek nevezz¨ uk : F= Az accuracy defin´ıciója

α P1

1 . + (1 − α) R1

T P +T N . N

Weka 3.5.7

Ha a Classifier evaluation options panelen (elérhetj¨ uk a Test options panel More options... felirat´ u gombj´ an kereszt¨ ul) bejel¨ olj¨ uk az Output per-class stats opci´ ot, akkor minden oszt´ alyhoz megkapjuk a TP és FP ar´ anyt, a precisiont, a felidézést, az F-mértéket (α = 0.5 mellett) és a ROC g¨ orbe alatti ter¨ uletet.

6.11. Oszt´ alyoz´ ok o ¨sszehasonl´ıt´ asa Számos módszert ismert¨ unk meg ebben a fejezetben. A módszerek célja ugyanaz volt, minél pontosabb modellt kész´ıteni. A b˝oség zavarában persze tanácstalanok lehet¨ unk, hogy most melyik osztályozót használjuk egy adott feladat megoldásánál. Szerencsére néhány módszert azonnal kizárhatunk, mert például az adatok nem lineárisan szeparálhatók, vagy vannak valós t´ıpus´ u attrib´ utumok, stb. Néhány módszer kizárása után valósz´ın˝ uleg nem egy fog maradni ; melyik ezek köz¨ ul a legjobb. Az osztályozók o¨sszehasonl´ıtásának helyes módja a kutatói világban is gyakran felmer¨ ul, amikor valaki u ´ j módszert javasol, és meg kell mutatnia, hogy az o˝ megoldása miért jobb a többiekénél. Els˝o gondolatunk az lehetne, hogy minek id˝oz¨ unk ilyesmivel ; vegy¨ unk egy adathalmaz és nézz¨ uk meg, hogy melyik osztályozónak lesz nagyobb a pontossága. Csakhogy egy adathalmaz a valódi pontosság egy becslése és lehet, hogy a k¨ ulönbség a becslés hibájának eredménye.


158

Legyen adott B és L osztályozók (gondolhatjuk, hogy a B egy bayesi osztályozóra, a L pedig egy logisztikus regresszión alapuló módszerre utal) és N darab teszthalmaz. A két osztályozó i-edik teszthalmazon mért pontosságát jelölj¨ uk bi és li -vel, a pontosságok a´tlagát pedig ¯b és ¯l-vel és legyen di = bi − li . Tegy¨ uk fel, hogy egy ν pontosság´ u osztályozó pontossága egy adott tesztalmazon megegyezik egy ν várható érték˝ u és ismeretlen szórás´ u normális eloszlás´ u valósz´ın˝ uségi változó egy megfigyelésével. Ezek a megfigyelt pontosságok rendelkezés¨ unkre a´llnak, azt kéne eldönteni, hogy az eredeti pontosságok statisztikailag eltérnek-e egymástól. Nullhipotésin¨ unk tehát, hogy νB = νL vagy νD = 0, ahol D = B − L. A student t-próba (lásd a 31) egy ismeretlen várható érték˝ u és szórás´ u normális eloszlás´ u valósz´ın˝ uségi változó várható értékére tett feltételt próbál eldönteni. Szám´ıtsuk hát ki a d¯− 0 p σd∗2 /N

értéket és vess¨ uk o¨ssze azzal az értékkel, ahol a student eloszlás megegyezik 1 − α-val. A ¯ szokásos módon a d-gal a mintaátlagot, a σd∗ -gal az empirikus korrigált szórást, a 1 − α-val az próba szintjét jelölt¨ uk. Ha a teszt elutas´ıtja a nullhipotézist, akkor a nagyobb a´tlaghoz tartozó osztályozó statisztikailag is jobb a másiknál.

7. fejezet Klaszterez´ es ´ Klaszterezésen elemek csoportos´ıtását értj¨ uk. Ugy szeretnénk a csoportos´ıtást elvégezni, hogy a hasonló elemek ugyanazon, m´ıg az egymástól eltér˝o elemek k¨ ulön csoportba ker¨ uljenek. Sajnos a jó” csoportok kialak´ıtása nem egyértelm˝ u feladat, hiszen az emberek gyakran más-más ” szempontokat vesznek figyelembe a csoportos´ıtásnál. Ugyanazt azt adathalmazt, alkalmazástól és szokásoktól f¨ ugg˝oen, eltér˝oen klasztereznék az emberek. Például az 52 darab francia kártyát sokan 4 csoportra osztanák (sz´ın szerint), sokan 13-ra (figura szerint). A Black Jack játékosok 10 csoportot hoznának létre (ott a 10-es, bubi, dáma, király között nincs k¨ ulönbség), m´ıg a Pikk Dáma játékot kedvel˝ok hármat (pikk dáma, a k˝orök és a többi lap). Klaszterezéskor tehát az adathalmaz mellett meg kell adnunk, hogy miként definiáljuk az elemek hasonlóságát, továbbá, hogy mi alapján csoportos´ıtsunk (összef¨ ugg˝o alakzatokat keress¨ unk, vagy a négyzetes hibát minimalizáljuk stb.). A jóság egzakt defin´ıciójának hiánya mellett nagy problémát jelent az o´riási keresési tér. Ha n pontot akarunk k csoportba sorolni, akkor a lehetséges csoportos´ıtások számát a Stirling számok adják meg : k 1 X k−i k (k) (−1) Sn = in . k! i=0 i

Még egy egészen pici adathalmaz mellett is megdöbbent˝oen sokféleképpen csoportos´ıthatunk. (5) Például 25 elemet 5 csoportba S25 =2,436,684,974,110,751 k¨ ulönböz˝o módon part´ıciónálhatunk. P (k) Ráadásul, ha a csoportok számát sem tudjuk, akkor a keresési tér még nagyobb ( 25 k=1 S25 > > 4 · 1018 ). Sz¨ ukség van azonban az elemek automatikus csoportos´ıtására, ´ıgy a problémákon t´ ul kell lépni. Objekt´ıv defin´ıciót kell adnunk az elemek hasonlóságának mértékére és a klaszterezés min˝oségére. Amennyiben megfelel˝o matematikai modellbe a´gyaztuk a feladatot, lehet˝oség ny´ılik olyan algoritmusok megkeresésére, amelyek jól és gyorsan oldják meg a feladatot. Ezekr˝ol az algoritmusokról és a hasonlóság megállap´ıtásának módjáról szól ez a fejezet. Klaszterezés során csoportokba, osztályokba soroljuk az elemeket, tehát osztályozást végz¨ unk. Az eredeti osztályozási feladattól (lásd el˝oz˝o fejezet) az k¨ ulönbözteti meg a klaszterezést, hogy nincs megadva, hogy melyik elem melyik osztályba tartozik (tehát nincs egy tan´ıtó, aki helyes példákkal seg´ıti a tanulásunkat), ezt nek¨ unk kell meghatároznunk. Ezért h´ıvják a klaszterezést fel¨ ugyelet nélk¨ uli tanul´ asnak (unsupervised learning) is. A klaszterezés az adatbányászat legrégebbi és leggyakrabban alkalmazott része. Számos helyzetben alkalmazzák, ´ıgy csoportos´ıtanak weboldalakat, géneket, betegségeket stb. Az egyik 159

´ 7. FEJEZET. KLASZTEREZES

160

legdinamikusabban fejl˝od˝o ter¨ ulet azonban a személyre szabott szolgáltatásoké, ahol az u ¨ gyfeleket, ill. vásárlókat kategorizálják, és az egyes kategóriákat eltér˝oen kezelik. A klaszterezésre azért van sz¨ ukség, mert az u ¨ gyfelek számossága miatt a kézi kategorizálás t´ ul nagy költséget jelentene. Gyakran nem az a fontos, hogy az egyes elemeket melyik csoportba soroljuk, hanem az, hogy mi jellemz˝o a k¨ ulönböz˝o csoportokra. Például egy banki stratégia kialak´ıtásánál nem érdekel benn¨ unket, hogy Kis Pista melyik csoportba tartozik, hanem csak az, hogy milyen u ¨ gyfélcsoportokat célszer˝ u kialak´ıtani és ezekre a csoportokra mi jellemz˝o. A klaszterezés seg´ıtségével egy veszteséges tömör´ıtést végezt¨ unk. A teljes u ¨ gyfeleket tartalmazó adatbázist egy kisebb, a´tláthatóbb, emészthet˝obb u ¨ gyfélcsoport adatbázissá alak´ıtottuk. Weka 3.5.7 A klaszterez˝o módszereket az Experimenter alkalmaz´ as Cluster f¨ ulén kereszt¨ ul érhetj¨ uk el.

A fejezet további részében el˝oször egy meghökkent˝o kutatási eredményr˝ol számolunk be, majd a hasonlóság meghatározásáról beszél¨ unk vég¨ ul rátér¨ unk a legismertebb klaszterez˝o algoritmusokra.

7.1. Egy lehetetlens´ eg-elm´ elet A klaszterezés az egyik legnehezebben a´tlátható adatbányászati ter¨ ulet. Napról napra u ´ jabb és u ´ jabb cikkek jelennek meg k¨ ulönböz˝o csodaalgoritmusokról”, amelyek szupergyorsan és ” helyesen csoportos´ıtják az elemeket. Elméleti elemzésekr˝ol a´ltalában kevés szó esik – azok is gyakran elnagyoltak, s˝ot hibásak –, viszont az algoritmust igazoló teszteredményekb˝ol nincs hiány. Mintha minden algoritmusnak illetve szerz˝onek létezne a maga adatbázisa, amivel az eljárás remek eredményeket hoz. Ebben a káoszban kincset érnek a helyes irányvonalak megvilág´ıtásai és a megalapozott elméleti eredmények. Egy ilyen gyöngyszem Jon Kleinberg munkája, amit az An Impossibi” lity Theorem for Clustering (A Klaszterezés Lehetetlenség-elmélete)” c´ım˝ u cikkében publikált 2002-ben [95]. A c´ım már sejteti az elszomor´ıtó eredményt, miszerint nem létezik j´ o, t´ avols´ ag 1 alap´ u klaszterez˝ o elj´ ar´ as ! Ezt a meglep˝o a´ll´ıtást u ´ gy bizony´ıtja, hogy három tulajdonságot mond ki, amellyel egy klaszterez˝o eljárásnak rendelkeznie kell, majd belátja, hogy nem létezhet klaszterez˝o eljárás, amelyre ez igaz. A tulajdonságok az alábbiak : Sk´ ala-invariancia : Ha minden elempár távolsága helyett annak az α-szorosát vessz¨ uk alapul (ahol α > 0), akkor a klaszterez˝o eljárás eredménye ne változzon ! Gazdags´ ag (richness) : Tetsz˝oleges el˝ore megadott csoportos´ıtáshoz tudjunk megadni távolságokat u ´ gy, hogy a klaszterez˝o eljárás az adott módon csoportos´ıtson. Konzisztencia : Tegy¨ uk fel, hogy a klaszterez˝o eljárás valahogy csoportos´ıtja az elemeket. Ha ezután tetsz˝oleges, azonos csoportban lév˝o elempárok között a távolságot csökkentem, 1 A k¨ ul¨ onb¨ oz˝ oség meg´ allap´ıt´ as´ ahoz haszn´ alt t´ avols´ agf¨ uggvénynek szemi-metrik´ anak kell lennie, teh´ at a h´ aromsz¨ og egyenl˝ otlenségnek nem kell teljes¨ ulnie


161

illetve k¨ ulön csoportban lév˝o elempárok távolságát növelem, akkor az u ´ jonnan kapott távolságok alapján m˝ uköd˝o eljárás az eredetivel megegyez˝o csoportos´ıtást adja. A fenti tulajdonságok teljesen természetesek, azt gondolnánk, hogy minden algoritmus ilyen. Ezért nem t´ ul b´ıztató a következ˝o tétel : 7.1. t´ etel. Amennyiben az elemek sz´ ama nagyobb 1-nél, akkor nem létezik olyan klaszterez˝ o elj´ ar´ as, ami rendelkezik a Sk´ ala-invariancia, a Gazdags´ ag és a Konzisztencia tulajdons´ agokkal. Kleinberg azt is bebizony´ıtja, hogy bármely két tulajdonsághoz létezik klaszterez˝o eljárás, amely rendelkezik a választott tulajdonságokkal. Például a single-linkage eljárás (lásd 7.7.1. rész) skála-invariáns és konzisztens. Ezen k´ıv¨ ul az is igaz, hogy a part´ıciónáló algoritmusok (pl. : k-means, k-medoid), ahol a cél a középpontoktól vett távolság f¨ uggvényének (például négyzetes hiba o¨sszege) minimalizálása, nem konzisztensek. Vitatkozhatunk azon, hogy a konzisztencia jogos elvárás-e egy klaszterez˝o algoritmussal szemben. Nézz¨ uk a következ˝o a´brát. Bal oldalon láthatjuk az eredetileg megadott pontokat, jobb oldalon pedig az a´tmozgatás során kapottakat. s

s

s s

s s

s

s

ss ss ss s s

Legtöbben a bal oldali pontokat egy csoportba vennék (nagy négyzetet reprezentáló pontok), a jobb oldalon láthatókat viszont két k¨ ulön csoportba sorolnák (két kis négyzethez tartozó pontok). A klaszteren bel¨ uli távolságokat tehát csökkentett¨ uk, a klaszterezés mégis megváltozott, azaz klaszterezési eljárásunk nem rendelkezik a konzisztencia tulajdonsággal. Sajnos Kleinberg erre az észrevételre is tud elszomor´ıtóan reagálni. A konzisztencia fogalmát laz´ıthatjuk. Amennyiben a klasztereken bel¨ uli távolságokat csökkentj¨ uk, a klaszterek közötti távolságokat növelj¨ uk, és ezáltal bizonyos klaszterek kisebb klaszterekké bomlanak, akkor a klaszterez˝o eljárás finom´ıt´ as–konzisztens. Belátható, hogy nem létezik olyan klaszterez˝o eljárás, ami skála-invariáns, gazdag és finom´ıtás–konzisztens. Ha viszont a gazdagságból is enged¨ unk egy kicsit, nevezetesen, hogy a klaszterez˝o algorimus sose tudjon minden pontot k¨ ulön klaszterbe sorolni – de tetsz˝oleges más módon tudjon particionálni –, akkor létezik klaszterez˝o eljárás, amely kielég´ıti a három tulajdonságot. Miel˝ott továbblépnénk gondolkodjunk el azon, hogy jogos-e a hasonlóságot és k¨ ulönböz˝oséget pusztán egy távolság alapján definiálni. A klaszterezés eredeti célja az, hogy a hasonló elemek egy csoportba, m´ıg a k¨ ulönböz˝o elemek eltér˝o csoportba ker¨ uljenek. Ebb˝ol következik, hogy egy tetsz˝oleges elem k¨ ulönbsége (távolsága) a saját csoportbeli elemeit˝ol kisebb lesz, mint a k¨ ulönbsége más csoportban található elemekt˝ol. Biztos, hogy jó ez ? Biztos, hogy az ember is ´ıgy csoportos´ıt, tehát ez a természetes klaszterezés ? Sajnos nem lehet a kérdésre egyértelm˝ u választ adni. Van amikor az ember ´ıgy csoportos´ıt, van, amikor máshogy. Tekints¨ uk a következ˝o a´brán elhelyezked˝o pontokat.


162

.................................................. .................................................. Valósz´ın˝ uleg kivétel nélk¨ ul minden ember két csoportot hozna létre, az alsó szakaszhoz tartozó pontokét és a fels˝o szakaszhoz tartozó pontokét. Mégis, ha megnézz¨ uk, akkor az alsó szakasz bal oldali pontja sokkal közelebb van a fels˝o szakasz bal oldali pontjaihoz, mint azokhoz a pontokhoz, amelyek az alsó szakasz jobb oldalán helyezkednek el. Mégis ragaszkodunk ahhoz, ´ érezz¨ hogy a bal- és jobboldali pontok egy csoportba ker¨ uljenek. Ugy uk, egymáshoz tartoznak, mert mindannyian az alsó szakasz elemei. Következésképpen a klaszterezés célja – az eredetivel szemben – gyakran az, hogy u ´ gy csoportos´ıtsunk, hogy egy csoportba ker¨ uljenek az elemek akkor, ha ugyanahhoz az absztrakt objektumhoz tartoznak, és k¨ ulönböz˝obe, ha más absztrakt objektum részei. A klaszterezés nehézsége pont abban rejlik, hogy automatikusan kell felfedezni objektumokat az elemek alapján, ami ráadásul nem egyértelm˝ u feladat (például Rubin vázájának esete). Ha a klaszterezés során az absztrakt objektumokat o¨sszef¨ ugg˝o alakzatok formájában keress¨ uk (pl. vonal, gömb, am˝oba, pálcikaember stb.) akkor van esély jól megoldani a feladatot. ¨ Osszess´ egében tehát tökéletes klaszterezés nem létezik, ugyanakkor a lehetetlenség elmélet nem zárja ki az o¨sszef¨ ugg˝o alakzatokat felfedez˝o eljárás létezését.

7.2. Hasonl´ os´ ag m´ ert´ eke, adat´ abr´ azol´ as Adott n elem (vagy más néven objektum, egyed, megfigyelés stb.). Tetsz˝oleges két elem (x,y) között értelmezz¨ uk a hasonl´ os´ agukat. Mi a hasonlóság helyett annak inverzével, a k¨ ul¨ onb¨ oz˝ oséggel dolgozunk (d(x, y)). A d(x, y)-tól elvárjuk (amellett, hogy d(x, y) ≥ 0) azt, hogy I. reflex´ıv : d(x, x) = 0, II. szimmetrikus legyen : d(x, y) = d(y, x), III. és teljes¨ uljön a háromszög-egyenl˝otlenség : d(x, z) ≤ d(x, y) + d(y, z), tehát a k¨ ulönböz˝oség metrika (távolság) legyen2 . A továbbiakban elemek k¨ ulönböz˝osége helyett gyakran mondunk elemek t´ avols´ ag´ at. A klaszterezés legáltalánosabb esetében minden egyes elempár távolsága el˝ore meg van adva. Az adatokat ekkor egy u ´ n. távolság mátrixszal reprezentáljuk :   0 d(1,2) d(1,3) · · · d(1, n)  0 d(2,3) · · · d(2, n)      0 · · · d(3, n)  ,   .. . .   . . 0 2

Megjegyzés: Ha a 3. tulajdons´ ag nem teljes¨ ul, akkor szemi-metrik´ ar´ ol beszél¨ unk, ha az er˝ osebb d(x, y) ≤ ≤ max{d(x, z), d(y, z)} tulajdons´ ag a ´ll fenn, akkor pedig ultrametrikusr´ ol (m´ as néven nem-archimédeszi).


163

ahol d(i, j) adja meg az i-edik és a j-edik elem k¨ ulönböz˝oségét. A gyakorlatban az n elem (vagy objektum) attrib´ utumokkal van le´ırva, és a k¨ ulönböz˝oséget az attrib´ utumok alapján definiálhatjuk valamilyen t´ avols´ agf¨ uggvénnyel. Ha megadjuk a távolságf¨ uggvényt, akkor elvben fel´ırhatjuk a fenti mátrixot. Sok esetben azonban az elemek száma olyan nagy, hogy a mátrix rengeteg helyet foglalna. Modell¨ unkben ezért rendelkezés¨ unkre a´llnak az attrib´ utumokkal megadott elemek halmaza és a távolságf¨ uggvény. Az n értéke nagy lehet, ´ıgy nem tehetj¨ uk fel, hogy az adatok elférnek a memóriában. Sokszor fogjuk a klaszterezést gráfparticionálási feladatként vizsgálni. Az elemekre tekinthet¨ unk u ´ gy, mint egy G = (V, E) s´ ulyozott, irány´ıtatlan, teljes gráf pontjaira, ahol az éleken található s´ ulyok a távolságot, vagy éppen a hasonlóságot adják meg. Az (u, v) ∈ E él s´ ulyát w(u, v)-vel jelölj¨ uk. Vannak algoritmusok, amelyek nem az eredeti gráfon dolgoznak, hanem az u ´ gynevezett klegk¨ ozelebbi szomszéd gr´ af on, amit Gk -val jelöl¨ unk. Gk -ban is a pontoknak az elemek, az éleken található s´ ulyok pedig a hasonlóságoknak felelnek meg, de itt csak azokat az éleket tároljuk, amelyek egyik pontja a másik pont k legközelebbi pontjai között szerepel. Az alábbi a´brán ilyen gráfokat láthatunk :

k=0

k=1

k=2

k=3

7.1. a´bra. Példa k-legközelebbi szomszéd gráfokra k=0,1,2,3 esetén Ha az adathalmazt a k-legközelebbi szomszéd gráffal a´brázoljuk, akkor ugyan veszt¨ unk némi információt, de a lényeg megmarad, és jóval kevesebb helyre van sz¨ ukség¨ unk. Az egymástól nagyon távoli elemek nem lesznek o¨sszekötve Gk -ban. További el˝ony, hogy amennyiben egy klaszter s˝ ur˝ uségét a benne található élek o¨sszs´ ulyával mérj¨ uk, akkor a s˝ ur˝ u klasztereknél ez az érték nagy lesz, ritkáknál pedig kicsi.

7.3. A klaszterek jellemz˝ oi A C klaszter elemeinek számát |C|-vel jelölj¨ uk. A klaszter nagyságát” próbálja megragadni ” a klaszter a ´tmér˝ oje (D(C)). A két legelterjedtebb defin´ıció az elemek közötti a´tlagos, illetve a maximális távolság : XX d(p, q) Davg (C) =

p∈C q∈C

|C|2

Dmax (C) = max d(p, q). p,q∈C

,


164

Ízlés kérdése, hogy a klaszter a´tmér˝ojének szám´ıtásakor figyelembe vessz¨ uk-e aPpontok o¨nma=q d(p,q) 0 guktól vett távolságát (ami 0). Nyugodtan használhatjuk az a´tmér˝o D avg (C) = p,q∈C,p6 = |C| (2) = 2 NN−1 Davg (C) defin´ıcióját is. A klaszterek k¨ oz¨ otti t´ avols´ agot (d(C i , Cj )) is többféleképpen értelmezhetj¨ uk. Minim´ alis t´ avols´ ag : dmin (Ci , Cj ) =

Maxim´ alis t´ avols´ ag : dmax (Ci , Cj ) = ´ Atlagos t´ avols´ ag : davg (Ci , Cj ) =

min

p∈Ci ,q∈Cj

d(p, q).

max d(p, q).

p∈Ci ,q∈Cj

XX 1 d(p, q), ami a k¨ ulön klaszterben lév˝o |Ci ||Cj | p∈C q∈C i

j

pontpárok a´tlagos távolságát adja meg.

Egyes´ıtett klaszter ´ atm´ er˝ oje : dD (Ci , Cj ) = D(Ci ∪ Cj ) A vektortérben megadott elemeknél gyakran használt fogalmak a klaszter k¨ ozéppontja (m ~ C) és a sugara (RC ). 1 X p~, m ~C= |C| p∈C X |~ p−m ~ C| RC =

p∈C

. |C| A klaszterek közötti távolság mérésére pedig gyakran alkalmazzák a középpontok közötti távolság értékét : dmean (Ci , Cj ) = |m ~ i −m ~ j |.

Az a´tlagok kiszám´ıtásánál – például a´tmér˝o, sugár esetében – számtani közepet használtunk. Bizonyos cikkekben négyzetes közepet alkalmaznak helyette. Tulajdonképpen tetsz˝oleges közép használható, egyik sem rendelkezik elméleti el˝onnyel a többivel szemben. Gondoljuk meg azonban, hogy a hatvány alap´ u közepeknél jóval nagyobb számokkal dolgozunk, ´ıgy ezek szám´ıtása esetleg nagyobb a´tmeneti tárat k´ıván. A négyzetes középnek el˝onye a számtani középpel szemben, hogy könny˝ u kiszám´ıtani, amennyiben vektortérben dolgozunk. Ezt a BIRCH algoritmusnál (7.7.3. rész) is kihasználják, P ~ C= ahol nem tárolják a klaszterekben található elemeket, hanem csak 3 adatot : |C|, LS ~, p∈C p P T SSC = p∈C p~p~ . Könny˝ u belátni, hogy a fenti három adatból két klaszter (Ci , Cj ) közötti a´tlagos távolság (és hasonlóan az egyes´ıtett klaszter a´tmér˝oje) közvetlen¨ ul adódik : d avg (Ci , Cj )= T

=

~ C LS ~ SSCi +SSCj −2LS Ci i |Ci ||Cj |

.

7.4. A klaszterez´ es j´ os´ aga” ” Mint már eml´ıtett¨ uk, a klaszterezés jóságára nem lehet minden szempontot kielég´ıt˝o, objekt´ıv mértéket adni. Ennek ellenére néhány f¨ uggvény minimalizálása igen elterjedt a klaszterez˝o algoritmusok között. A továbbiakban n darab elemet kell k rögz´ıtett szám´ u csoportba sorolni u ´ gy, hogy a csoportok diszjunktak legyenek, és minden csoportba ker¨ uljön legalább egy elem.


165

7.4.1. Klasszikus m´ ert´ ekek Az alábbi problémákat k¨ ulönböztetj¨ uk meg a minimalizálandó célf¨ uggvény alapján : Minim´ alis ´ atm´ er˝ o probl´ ema : Célunk itt a legnagyobb klaszterátmér˝o minimalizálása. ´ er˝onek ez esetben Dmax -ot szokás használni. Atm´ k-medi´ an probl´ ema : Válasszuk ki az n elem köz¨ ul k u ´ n. reprezentáns elemet, amelyek a minimális hibaösszeget adják. Egy elem hibája a hozzá legközelebbi reprezentáns elem távolsága. A feladat NP-nehéz, még akkor is, ha olyan s´ıkba rajzolható gráfokra szor´ıtkozunk, amelyeknek a maximális fokszáma 3 (ha a gráf fa, akkor már lehet polinomrend˝ u algoritmust adni, p = 2 esetében a feladat lineáris id˝oben megoldható)[91]. A feladat NP-nehéz marad, ha a gráf Euklideszi térbe képezhet˝o, s˝ot, konstans szorzó erejéig közel´ıt˝o megoldást adni, még ilyenkor is, nehéz feladat [118] ! k-center probl´ ema : Ez a feladat a k-medián módos´ıtása, csak itt a legnagyobb hibát kell minimalizálni. P P k-klaszter probl´ ema : Célunk itt a klaszteren bel¨ uli távolságösszegek ( ki=1 p,q∈Ci d(p, q) = Pk 2 = alása. A feladat (és konstans szorzó erejéig annak i=1 |C| Davg (Ci )) minimaliz´ közel´ıtése) NP-nehéz k ≥ 2 (k ≥ 3) esetén [144]. Legkisebb (n´ egyzetes) hiba¨ oP sszegP : Csoportos´ıtsuk u ´ gy a pontokat, hogy a középpontoktól való távolság o¨sszege (E = ki=1 p∈Ci (|~ p−m ~ Ci |)) minimális legyen. Nyilvánvaló, hogy ez a megközel´ıtés csak olyan esetekben használható, amikor értelmezni tudjuk a klaszterek középpontját (m ~ Ci -t). Sok esetben a középpontoktól való távolságösszeg helyett a távolság négyzeteinek o¨sszegét minimalizálják. Legkisebb (négyzetes) hibaösszeg probléma eléggé hasonl´ıt a k-klaszter problémához. Pk P Pk P P 1 7.2. ´ eszrev´ etel. ~ Ci ||2 , ahol m ~ C = |C| ~. i=1 p,q∈Ci d(p, q) = i=1 p∈Ci ||p − m q∈C q

Bizony´ıt´ as:

k X X

i=1 p∈Ci

||p − m ~ Ci ||2 = =

k X X

i=1 p∈Ci

k X i=1

||p −

k 1 X 2 XXX 1 ~q|| = ||p − q||2 |C| q∈C |C| i=1 p∈C q∈C i

1 X ||p − q||2 = |Ci | (p,q)∈Ci

i

k X i=1

i

|Ci |Davg (Ci )

Azok az algoritmusok, amelyek a fenti célf¨ uggvényeket minimalizálják, az elemeket kis kompakt felh˝okbe csoportos´ıtják. Ez valamennyire elfogadhatónak t˝ unik, azonban ezeknek a megközel´ıtéseknek számos s´ ulyos hátránya van. I. Legfontosabb, hogy csak elliptikus klasztereket generál, tehát tetsz˝oleges am˝oba alak´ u, de kompakt klasztert felvág kisebb kör alak´ u klaszterekre.


166

II. Rosszul csoportos´ıt, ha a klaszterek között nagyok a méretk¨ ulönbségek. Ennek oka az, hogy a nagy klaszterben lév˝o pontok távol esnek a középponttól, ami nagy hibát eredményez. Tehát hiába kompakt egy nagy klaszter, a hibát minimalizáló algoritmusok kis részekre fogják felosztani. A négyzetes hibaösszeget minimalizáló eljárások további hibája, hogy érzékeny a távol es˝o (outlier) pontokra, hiszen egy távoli pont a klaszter középpontját nagyon elh´ uzhatja”. ” Elrettent˝o példaként nézz¨ uk a következ˝o két a´brán látható pontokat. Ha a maximális a´tmér˝ot minimalizáljuk, akkor a 2. egyenes alapján osztjuk ketté a pontokat. Ennek ellenére minden rendszeret˝o” ember a két csoportot inkább az 1-es egyenes mentén szeparálná. A ” gyenge klaszterezés oka, hogy a klasztereken bel¨ uli maximális eltérést annak a´rán minimalizáljuk, hogy sok k¨ ulönböz˝o pont egy klaszterbe ker¨ ul (Megjegyzés : ugyanezt a rossz eredményt kapnánk, ha a közepekt˝ol való távolságot, esetleg a távolságösszeget akarnánk minimalizálni.). r r r r r r r r r

1

2

r r r r r r r r r r r r r rr r r r r r r r r r

7.2. a´bra. Hibás klaszterezés : eltér˝o méret˝ u klaszterek esetén A 7.3. a´brán látható pontokat a 2-medián problémát megoldó algoritmusok a 2-es egyenes szerint csoportos´ıtanák. 2 r rr rr

r r ' r r r r r r r r r r r r r r r &1 r r rr rr r

r

r

r $ r r r r % rr r

7.3. a´bra. Hibás klaszterezés : egymást tartalmazó klaszterek esetén

7.4.2. Konduktancia alap´ u m´ ert´ ek A klasszikus mértékek igen közkedveltek a matematikusok körében, köszönhet˝oen az egyszer˝ uség¨ uknek és annak, hogy remek¨ ul elemezhet˝ok. Rengeteg ´ırás sz¨ uletett, amelyek matematikus szemmel kit˝ un˝oek, a gyakorlatban azonban – ahogy azt az el˝oz˝o két példa is illusztrálta – haszontalanok. 30-40 évig mégis ezek a problémák a´lltak a középpontban. A kutatók szép eredményeket értek el, a hasznosság igénye azonban sokáig kimondatlan maradt.


167

Az adatbányászat népszer˝ usödésével egyre fontosabb szerep¨ uk lett a ”Mi haszna van ?”, ”Mi a jó klaszterezés ?” kérdéseknek. Hamar kider¨ ult, hogy a klasszikus mértékek a gyakorlati esetek ´ mértékek, megközel´ıtések sz¨ többségében egyszer˝ uen rossz eredményt adnak. Uj ulettek. Ezek köz¨ ul talán a leg´ıgéretesebb a konduktancia alap´ u mérték [90]. Tekints¨ unk az adathalmazunkra, mint egy G = (V, E) gráfra, de most az éleken található s´ uly a hasonlósággal legyen arányos, ne pedig a távolsággal (k¨ ulönböz˝os´ eggel). Jelölj¨ uk egy P T ⊆ E élhalmazban található élek s´ ulyainak o¨sszegét w(T )-vel (w(T ) = e∈T w(e)), C ⊆ V klaszterben található elemek számát |C|-vel, E(S) = E(V \S)-el (edge(S)) pedig az (S, V \S) vágást keresztez˝o élek halmazát : E(S) = {(p, q)|p ∈ S, q ∈ V \S}. Vizsgáljuk azt az egyszer˝ u esetet, amikor k = 2, tehát a gráf pontjait két részre akarjuk osztani. Klaszterezésnél az egyik célunk, hogy az elemeket u ´ gy csoportos´ıtsuk, hogy a k¨ ulönböz˝o elemek k¨ ulön klaszterbe ker¨ uljenek. Ez alapján mondhatnánk, hogy egy minimális o¨sszs´ uly´ u vágás jól osztaná ketté a pontokat. Sajnos ez a módszer legtöbb esetben kiegyens´ ulyozatlan (nagyon eltér˝o méret˝ u) csoportokat hozna létre. Gondoljuk meg, hogy ha az egyik klaszterben csak 1 elem található, akkor n − 1 s´ ulyt kell o¨sszegezni, m´ıg egyenletes kettéosztásnál ugyanez n 2 az érték ( 2 ) . A vágás helyett célszer˝ u olyan mértéket bevezetni, amely figyelembe veszi valahogy a gráf kiegyens´ ulyozottságát is, és kisebb jelent˝oséget tulajdon´ıt az olyan vágásnak, amely kis elemszám´ u részhez tartozik. Egy gráf kiterjedése (expansion) megadja az o¨sszes vágás köz¨ ul azt, amelyiknél a legkisebb az arány a vágás s´ ulya és a vágást alkotó két ponthalmaz köz¨ ul a kisebbik elemszáma között. Formálisan az (S, V \S) vágás kiterjedése : ϕ(S) =

w(E(S)) . min(|S|, n − |S|)

Látható, hogy a számláló a kis vágásértéket, m´ıg a nevez˝o a kiegyens´ ulyozottságot preferálja. Egy gráf kiterjedése pedig a vágások minimális kiterjedése, egy klaszter kiterjedését pedig a hozzá tartozó részgráf kiterjedésével definiálhatjuk. A klaszterezés jóságát, ez alapján, a klaszterek minimális kiterjedésével adhatjuk meg. Sajnos a kiterjedés képletében a nevez˝o nem veszi figyelembe az élek s´ ulyait. Azt szeretnénk, hogy azok a pontok, amelyek nagyon k¨ ulönböz˝oek az o¨sszes többi ponttól, kisebb o¨sszs´ ullyal szerepeljenek a jóság” defin´ıciójában, mint azok a pontok, amelyeknek jóval több ponthoz ” hasonl´ıtanak. A kiterjedés a´ltalános´ıtása a konduktancia (conductance). 7.3. defin´ıci´ o. Legyen G = (V, E) gr´ af egy v´ ag´ asa (S, V \S). A v´ ag´ as konduktanci´ aj´ at a k¨ ovetkez˝ oképpen defini´ aljuk : w(E(S)) φ(S) = , min(a(S), a(V \S)) P ahol a(S) = p∈S,q∈V w(p, q).

A gráf konduktanciája pedig a vágások minimális konduktanciája : φ(G) = min S⊆V φ(S). A konduktancia könnyen a´ltalános´ıtható k klaszter esetére. Egy C ⊆ V klaszter konduktanciája megegyezik a vágásai legkisebb konduktanciájával, ahol az (S, C\S) vágás konduktanP p∈S,q∈C\S w(p,q) ciája : φ(S) = min(a(S),a(C\S)) . Egy klaszterezés konduktanciája a klaszterek minimális konduktanciájával egyezik meg. A klaszterezés célja tehát az, hogy keress¨ uk meg azt a klaszterezést, ami a legnagyobb konduktanciát adja. A 7.2 és a 7.3 a´brákon látható pontokat a konduktancia alap´ u klaszterez˝o eljárások helyesen csoportos´ıtják.


168

Sajnos a konduktancia alap´ u mérték még nem tökéletes. Ha például egy jó min˝oség˝ u klaszter mellett van néhány pont, amelyek mindent˝ol távol esnek, akkor a klaszterezés min˝osége igen gyenge lesz (hiszen a min˝oség a leggyengébb klaszter min˝osége). A probléma egy lehetséges kik¨ uszöbölése, ha a klaszterezés min˝os´ıtésére két paramétert használunk. A konduktancia mellett bevezethetj¨ uk azt a mértéket, amely megadja, hogy az o¨sszes él s´ ulyának hányad részét nem fedik le a klaszterek. 7.4. defin´ıci´ o. A {C1 , C2 , . . . , Ck } a (V, E) gr´ af egy (α, )-part´ıci´ oja, ha : I. minden Ci klaszter konduktanci´ aja legal´ abb α, II. a klaszterek k¨ oz¨ otti élek s´ ulya legfeljebb h´ anyada az o ¨sszes él s´ uly´ anak. A klaszterezés célja ekkor az lehet, hogy adott α mellett találjunk olyan (α, )-part´ıciót, amely minimalizálja -t, vagy ford´ıtva (adott mellé találjunk olyan (α, )-part´ıciót, amely maximalizálja α-t). A feladat NP-nehéz.

7.5. Klaszterez˝ o algoritmusok t´ıpusai A szakirodalomban jónéhány klaszterez˝o algoritmus található. Nem létezik ideális klaszterez˝o algoritmus, mivel az eredmények o¨sszehasonl´ıtására nincs objekt´ıv mérték. Az egyes alkalmazások jellegét˝ol f¨ ugg, hogy melyik algoritmust célszer˝ u választani. A klaszterez˝o algoritmusokat 5 kategóriába soroljuk. Part´ıci´ os m´ odszer : A part´ıciós módszerek a pontokat k diszjunkt csoportra osztják u ´ gy, hogy minden csoportba legalább egy elem ker¨ uljön. A csoportok a klasztereknek felelnek meg. Egy kezdeti particionálás után egy u ´ jraparticionálási folyamat kezd˝odik, mely során egyes pontokat más csoportba helyez¨ unk a´t. A folyamat akkor ér véget, ha már nem mozognak” ” az elemek. Hierarchikus m´ odszer : A hierarchikus módszerek a klaszterekb˝ol egy hierarchikus adatszerkezetet (általában fát, amit a szakirodalomban dendogramnak neveznek) ép´ıtenek fel. Spektr´ al m´ odszerek : Spektrál módszerek közé soroljuk az olyan algoritmusokat, amelyek a csoportok meghatározásához az adathalmazt reprezentáló mátrix sajátértékeit, illetve sajátvektorait használja fel. S˝ ur˝ us´ eg-alap´ u m´ odszerek : A legtöbb klaszterez˝o algoritmus csak elliptikus alak´ u klasztereket tud kialak´ıtani. A s˝ ur˝ uség-alap´ u módszerek ennek a hibának a kik¨ uszöbölésére sz¨ ulettek meg. Az alapvet˝o o¨tlet az, hogy egy klasztert addig növesztenek, am´ıg a s˝ ur˝ uség a szomszédságban” meghalad egy bizonyos korlátot. Pontosabban egy klaszteren bel¨ uli ele” mekre mindig igaz, hogy adott sugar´ u körön bel¨ ul mindig megtalálható bizonyos szám´ u elem. A s˝ ur˝ uség-alap´ u módszereket a klaszterezés mellett kivételek, k´ıv¨ ulálló elemek felder´ıtésére (outlier analysis) is alkalmazzák. Grid-alap´ u m´ odszerek : A grid-alap´ u módszerek az elemeket rácspontokba képezik le, és a kés˝obbiekben már csak ezekkel a rácspontokkal dolgoznak. Ezeknek az algoritmusoknak a gyorsaság a f˝o el˝ony¨ uk.


169

Klaszterez˝o algoritmusokkal Dunát lehetne rekeszteni. Szinte bármilyen ,,butuska” klaszterez˝o algoritmushoz tudunk generálni olyan adathalmazt, amit az fog a legjobban csoportos´ıtani. Sajnos ezt a tényt a cikkek szerz˝oi is gyakran kihasználják. A végeredményen k´ıv¨ ul akadnak még szempontok, amelyeket meg lehet vizsgálni az egyes klaszterez˝o algoritmusoknál. A legf˝obb elvárásaink az alábbiak lehetnek : Sk´ al´ azhat´ os´ ag : Sok algoritmus csak akkor hatékony, ha az elemek elférnek a memóriában. Sajnos a gyakorlatban gyakran olyan nagy adatbázisokat kell feldolgozni, hogy ez a feltétel nem tartható. Adatt´ıpus : Vannak algoritmusok, amelyek csak intervallum t´ıpus´ u attrib´ utumokkal megadott elemeken m˝ uködnek. Nyilvánvaló, hogy ez a feltétel sz˝ uk´ıti az alkalmazások körét. Tetsz˝ oleges alak´ u, m´ eret˝ u´ es s˝ ur˝ us´ eg˝ u klaszterek : A legtöbb klaszterez˝o algoritmus csak elliptikus klasztereket képes felfedezni. A gyakorlati életben azonban ritkán elliptikusak a klaszterek. Jogos elvárás, hogy az algoritmus akár am˝oba alak´ u, s˝ot egymásba a´gyazódó klasztereket is meg tudjon határozni. Emellett jól tudjon csoportos´ıtani eltér˝o méret˝ u és s˝ ur˝ uség˝ u elemhalmazokat. El˝ ozetes ismeretek : Elvárjuk, hogy az algoritmusok automatikusan meghatározzák a sz¨ ukséges klaszterek számát. Sajnos vannak algoritmusok, amelyeknek el˝ore meg kell adni ezt a paramétert. Zajos adatok, t´ avol es˝ o elemek kezel´ ese : A legtöbb adatbázis tartalmaz valamekkora zajt, kivételes, a többségt˝ol távol es˝o elemeket. Rossz tulajdonsága egy algoritmusnak, ha ezeknek az elemeknek nagy hatása van a klaszterek kialak´ıtására. Adatok sorrendj´ ere val´ o´ erz´ ekenys´ eg : Miért fogadnánk el az algoritmus eredményét, ha az teljesen megváltozik, mihelyt más sorrendben vessz¨ uk az elemeket ? Az eredményként kapott klaszterek nem f¨ ugghetnek az adatok feldolgozásának sorrendjét˝ol. Dimenzi´ o : Bizonyos algoritmusok csak alacsony dimenzió esetén hatékonyak. Vannak azonban olyan alkalmazások, ahol az elemek nagyon sok paraméterrel vannak le´ırva, azaz az elemeket egy magas dimenziój´ u tér elemeiként kell felfognunk. ´ Ertelmezhet˝ os´ eg : A felhasználók azt várják el a klaszterez˝o algoritmusoktól, hogy olyan klasztereket találjanak, amelyek jól meghatározott jegyekkel b´ırnak, és viszonylag könny˝ u magyarázatot adni arra, hogy milyen tulajdonság´ u elemek tartoznak az egyes klaszterbe.

7.6. Particion´ al´ o elj´ ar´ asok A particionáló algoritmusoknál a csoportok száma el˝ore adott (k). Azért nevezz¨ uk ezeket az eljárásokat particionáló eljárásoknak, mert a legels˝o lépésben particionáljuk az elemeket, és a továbbiakban csak a´thelyezget¨ unk bizonyos elemeket az egyik részb˝ol a másikba. Akkor ker¨ ul egy elem egy másik részbe, ha ezáltal javul a klaszterezés min˝osége. A klaszterezés min˝oségére az egyes part´ıciós algoritmusok eltér˝o célf¨ uggvényt használnak. Egy lépés során ´ a célf¨ uggvény jav´ıtására a´ltalában több lehet˝oség is k´ınálkozik. Altal´ aban az algoritmusok a legjobbat választják ezek köz¨ ul, tehát a legmeredekebb lejt˝o” irányába lépnek a célf¨ uggvény ” völgyekkel teli görbéjén.


170

7.6.1. Forgy k-k¨ oz´ ep algoritmusa A k-közép algoritmus (k-means algorithm) [59] az egyik legrégebbi (1965-b˝ol származik) és legegyszer˝ ubb klaszterez˝o algoritmus vektortérben megadott elemek csoportos´ıtására. A klaszterezés min˝oségének jellemzésére a négyzetes hibaf¨ uggvényt használja. Az algoritmus menete a következ˝o : kezdetben választunk k darab véletlen elemet. Ezek reprezentálják eleinte a k klasztert. Ezután besorolunk minden pontot ahhoz a klaszterhez, amely reprezentáns eleméhez az a leginkább hasonló. A besorolás után u ´ j reprezentáns pontot választunk, éspedig a klaszter középpontját. A besorolás, u ´ j középpont választás iterációs lépéseket addig ismételj¨ uk, am´ıg történik változás. Jancey 1966-ban Forgy-tól teljesen f¨ uggetlen¨ ul ugyanezt az algoritmust javasolta egy apró módos´ıtással [85]. Az u ´ j reprezentáns pont ne az u ´ j középpont legyen, hanem a régi és az u ´ j középontot o¨sszeköt˝o szakaszon, például a középponton. Ez egy visszafogottabb, kisebb lépésekben haladó algoritmus. A kisebb lépések el˝onye, hogy esetleg nem lesznek t´ ullövések, t´ ul nagy oszcillációk. Elméletileg azonban egyikr˝ol sem lehet elmondani, hogy jobb lenne a másiknál, bizonyos helyzetekben az egyik, máskor a másik ad jobb eredményt. Az algoritmus szép eredményeket hoz, amennyiben a klaszterek egymástól jól elszigetel˝od˝o kompakt felh˝ok”. El˝onye, hogy egyszer˝ u és jól skálázható, futási ideje O(nkt), ahol t az ” iterációk számát jelöli. A k-közép algoritmusnak azonban számos hátránya van. I. Lehet, hogy az algoritmus lokális optimumban a´ll meg, tehát az iterációk során nem változik semmi, mégis létezik olyan csoportos´ıtás, ahol a négyzetes hiba kisebb. II. Csak olyan elemek csoportos´ıtására használható, amelyek vektortérben vannak megadva, hiszen értelmezni kell az elemek középpontját. Ezek szerint a k-közép nem használható olyan alkalmazásokban, ahol az elemek attrib´ utumai között például kategória t´ıpus´ u is szerepel. III. Rendelkezik a négyzetes hibát minimalizáló algoritmusok minden hibájával (lásd a 7.4.1-es részt). A lokális optimumba ker¨ ulés esélyének csökkentése érdekében érdemes az algoritmust többször futtatni k¨ ulönböz˝o kezdeti pontokkal. Azt a csoportos´ıtást fogadjuk el, amelynek legkisebb a négyzetes hibája. Vegy¨ uk észre, hogy ez a megoldás er˝os heurisztika ! Minél nagyobb n, elvben annál több lokális optimum lehet, annál nagyobb az esélye, hogy lokális optimumban köt¨ unk ki. Ismereteink szerint nincs olyan képlet, ami megmondja, hogy adott elemszám esetén hányszor kell futtatni az algoritmust, hogy biztosan (vagy adott valósz´ın˝ uséggel) megtaláljuk a globális optimumot. Weka 3.5.7 A k-közép algoritmust a weka.clusterers.SimpleKMeans oszt´ aly implement´ alja.

7.6.2. A k-medoid algoritmusok Ezek az algoritmusok a k-közép két hibáját próbálják kik¨ uszöbölni. Egyrészt az eredmény kevésbé érzékeny a k´ıv¨ ulálló pontokra, másrészt csak a hasonlósági értékeket használja. Tehát


171

nem feltétel, hogy az elemek vektortérben legyenek megadva. A k-medoid algoritmusokban egy klasztert nem a középpont reprezentál, hanem a leginkább középen elhelyezked˝o elem, a medoid. Továbbra is egy négyzetes hiba jelleg˝ u f¨ uggvényt próbálunk minimalizálni, de a négyzetes hiba itt a medoidoktól való távolságok o¨sszegét jelenti (k-medián probléma, lásd 7.4.1 rész). A PAM algoritmus A PAM (Partitioning Around Medoids) algoritmus [92] menete teljesen megegyezik a kközép menetével. Kezdetben választunk k véletlen elemet, ezek lesznek el˝oször a medoidok. Ezután elkezd˝odik az elemhozzárendelés medoidokhoz, u ´ j medoid választása iterat´ıv folyamat. Egy elemet a legközelebbi medoidhoz rendel¨ unk. Abban az esetben választunk u ´ j medoidot egy klaszterben, ha ezzel csökken a négyzetes hiba. Határozzuk meg az o¨sszes nem medoid, medoid párra (x, xm ), hogy mennyivel változna a négyzetes hiba, ha xm -nek a´tvenné a szerepét x. Nyilvánvaló, hogy nincsenek hatással a négyzetes hiba változására azok az elemek, amelyekhez van x és x m -nél közelebbi medoid. A négyzetes hiba változásánál nem csak xm klaszterébe tartozó elemeket kell megvizsgálnunk, hiszen lehet, hogy a medoidváltás hatására egyes elemek u ´ j klaszterbe ker¨ ulnek. Ha vannak olyan párok, amelyeknél a négyzetes hiba változása negat´ıv, akkor cseréljen szerepet annak a párosnak a két eleme, amelyhez tartozó négyzetes hiba változás abszol´ ut értékben a legnagyobb. ¨ Sajnos az algoritmus lass´ u, hiszen egy iterat´ıv lépés id˝oigénye O(k(n−k) 2 ). Osszehasonl´ ıtva a k-közép algoritmussal elmondhatjuk, hogy lassabb, viszont kevésbé érzékeny a távol es˝o pontokra. A CLARA ´ es CLARANS algoritmusok A PAM algoritmus nem alkalmas nagy adathalmazok klaszterezésére, mert lass´ u. A CLARA és CLARANS algoritmusok a PAM algoritmus kiterjesztései. Nem vizsgálnak meg minden medoid, nem medoid párt, hanem csak néhányat. Így az iterációs lépésben elvégzend˝o ellen˝orzések száma kisebb, ami a´ltal az algoritmusok nagyobb adathalmazokon is használhatók. A CLARA algoritmus [92] az eredeti adatbázis helyett egy véletlenszer˝ uen választott mintán dolgozik. A medoidok csak ebb˝ol a véletlen mintából ker¨ ulhetnek ki, de a négyzetes hibát a teljes adatbázisra nézve szám´ıtja. Az iterációs lépés id˝oigénye ´ıgy O(k(n 0 −k)(n−k)), ahol n0 a minta nagysága. Ha a legkisebb négyzetes hibát eredményez˝o k elem nincs a mintában, akkor a CLARA nem fogja megtalálni az optimális megoldást. Célszer˝ u ezért az algoritmust több véletlenszer˝ uen kiválasztott mintán lefuttatni, és a legkisebb négyzetes hibát szolgáltatót elfogadni. A CLARANS algoritmus [124] az eredeti adathalmazon dolgozik. Nem az o¨sszes lehetséges csere a´ltal eredményezett négyzetes hiba változását szám´ıtja ki, hanem csak egy, véletlenszer˝ uen választott párét. Ha a változás negat´ıv (sikeres választás), akkor a pár elemei szerepet cserélnek, ellenkez˝o esetben u ´ j párt sorsolunk. A felhasználó egy paraméterrel szabályozhatja a sikertelen választások maximális számát, amely elérésével az algoritmus véget ér. A CLARANS sem biztos, hogy megtalálja a legkisebb négyzetes hibát adó k medoidot miel˝ott a sikertelen próbálkozások száma elérné a k¨ uszöböt. Ezért többször futtassuk az algoritmust mindig más kezdeti medoidokkal.


172

Vegy¨ unk észre egy fontos tulajdonságot : eredményezhetik ugyanazt a klaszterezést k¨ ulönböz˝o medoidok. Valósz´ın˝ u, hogy az optimálishoz közeli megoldás ugyanazt a csoportos´ıtást adja, mint a legkisebb négyzetes hibát szolgáltató medoidok. Ezért javasolt a fenti heurisztikák alkalmazása nagy adathalmazok esetén. A CLARANS nagy adathalmazokon való alkalmazhatóságával foglalkoznak a [50] cikkben. R*-fák használatával feloldják azt a kényszert, miszerint a pontok férjenek el a memóriában. A PAM és rokonainak hibája, hogy a k-medián problémát próbálja megoldani, ´ıgy csak egyszer˝ u, eliptikus klasztereket képes felfedezni.

7.7. Hierarchikus elj´ ar´ asok A hierarchikus eljárások onnan kapták a nev¨ uket, hogy az elemeket, klasztereket, alklasztereket hierarchikus adatszerkezetbe rendezik el. Két fajta hierarchikus eljárást k¨ ulönböztet¨ unk meg : a lentr˝ ol ép´ıtkez˝ o t, más néven egyes´ıt˝ o t és a fentr˝ ol ép´ıtkez˝ o t, avagy az oszt´ o t. A lentr˝ol ép´ıtkez˝o eljárásoknál kezdetben minden elem k¨ ulön klaszter, majd a nagyon közeli klasztereket egyes´ıti, amennyiben azok teljes´ıtenek bizonyos feltételt. A fentr˝ol ép´ıtkez˝ok ford´ıtva m˝ uködnek : kezdetben egyetlen klaszter létezik, amit kisebb alklaszterekre osztunk, majd ezeket finom´ıtjuk tovább. A hierarchikus algoritmusok kényes pontja az egyes´ıtend˝o vagy osztandó klaszterek kiválasztása. Miután egy egyes´ıtés (osztás) megtörténik, az o¨sszes további m˝ uveletet az u ´j klaszteren végezz¨ uk. Ezek a m˝ uveletek tehát nem megford´ıtható folyamatok, ´ıgy rossz választás rossz min˝oség˝ u klaszterezéshez vezet.

7.7.1. Single-, Complete-, Average Linkage Elj´ ar´ asok A legegyszer˝ ubb egyes´ıt˝o, hierarchikus eljárás az alábbi. I. Kezdetben minden pont k¨ ulön klaszterhez tartozik. II. Keress¨ uk meg, majd egyes´ıts¨ uk a legközelebbi klasztereket. III. Ha a klaszterek száma lecsökkent k-ra, akkor a´lljunk meg, ellenkez˝o esetben ugorjunk a 2. lépésre. Ez az egyszer˝ u eljárás a távolság mátrixszal dolgozik, feltételezi, hogy az elfér a memóriában. A távolság mátrix egy fels˝o háromszög-mátrix, amelynek i-edik sorának j-edik eleme tárolja az i és j elemek távolságát. Célszer˝ u kiegész´ıteni minden sort két extra információval : a legközelebbi klaszter sorszámával és annak távolságával. Az eljárás tár- és id˝oigénye (az o¨sszehasonl´ıtások száma) O(n 2 ). A mai tárkapacitások mellett (1-2 Gbyte memóriával rendelkez˝o gép teljesen hétköznapinak szám´ıt) ez azt jelenti, hogy az elemek száma 30-40 ezernél nem lehet több. Amennyiben két klaszter távolságát a legközelebbi pontjaik távolságával definiáljuk, akkor az eljárást single linkage elj´ ar´ asnak nevezz¨ uk. A single linkage rendk´ıv¨ ul alkalmas jól elk¨ ulön¨ ul˝o, tetsz˝oleges alak´ u klaszterek felfedezésére. Mivel a minimális távolságon alapszik, ezért ha a klaszterek t´ ul közel ker¨ ulnek egymáshoz, akkor hajlamos a single linkage o¨sszekötni o˝ket, és esetleg a klaszteren bel¨ ul egy vágást képezni.


173

´ További hibája, hogy érzékeny az outlierekre. Altal´ aban az outlierek távol esnek a többi ponttól, ´ıgy ezeket a pontokat nem fogja egyes´ıteni. Például két jól elszeparálódó, sok pontot tartalmazó klasztert és egy nagyon távoli pontot u ´ gy oszt két részre, hogy az egyik részben lesz a távoles˝o pont, a másikban pedig az o¨sszes többi. Ha tudjuk, hogy olyan adathalmazt kell klaszterezn¨ unk, ahol a (tetsz˝oleges alak´ u) csoportok jól elk¨ ulön¨ ulnek egymástól, továbbá nincsenek outlierek, akkor a single eljárás jó munkát végez. Ha az eljárást gráfelméleti szemszögb˝ol nézz¨ uk (teljes gráfban a pontoknak az elemek, az éleken lév˝o s´ ulyoknak pedig a távolságok felelnek meg), akkor a single-linkage eljárás egy minimális fesz´ıt˝ofát fog találni, amennyiben a klaszterek számának egyet adunk meg érték¨ ul. Ha k darab csoportba akarjuk sorolni a pontokat, akkor ezt a minimális fesz´ıt˝ofa k − 1 legnagyobb élének elhagyásával nyerhetj¨ uk. Azon elemek lesznek egy klaszterben, amelyek egy komponensbe ker¨ ultek. Rájöhet¨ unk arra is, hogy a single-linkage eljárás nem más, mint Kruskal algoritmusa más köntösben. Ha két klaszter távolságának megállap´ıtásához a minimális távolság helyett a maximális távolságot használjuk, akkor complet linkage eljárásról beszél¨ unk, ha pedig az a´tlagos hasonlóságot, vagy az egyes´ıtett klaszter a´tmér˝ojét, akkor average linkage eljárásról.

7.7.2. Ward m´ odszere Ward módszere a particionáló eljárásokhoz hasonlóan a legkisebb négyzetes hibát próbálja minimalizálni (tehát csak vektortérben megadott pontoknál alkalmazható). Az egyszer˝ u hierarchikus eljárástól csak az egyes´ıtend˝o klaszterek kiválasztásának módjában k¨ ulönbözik. Azt a két klasztert egyes´ıti, amelyek a legkisebb négyzetes hibanövekedést okozzák (nyilvánvalóan kezdetben – amikor minden pont k¨ ulön klaszter – a négyzetes hibaösszeg 0). A módszer rendelkezik a négyzetes hibát minimalizáló eljárások minden hibájával. Emellett nem skálázható, hiszen a távolságmátrixszal dolgozik, és vég¨ ul nem garantált, hogy megtalálja a globális minimumot.

7.7.3. A BIRCH algoritmus Ezt az algoritmust nagy adathalmazok klaszterezésére találták ki. Csak vektortérben adott ~ SS) hármas (Cluster Feature) jellemez, elemeket tud klaszterezni. Egy klasztert a CF =(N, LS, P P ~ ahol N a klaszterben található elemek száma, LS = N xi és SS = N xi |. Egy klaszter i=1 ~ i=1 |~ CF-je a klaszter statisztikai jellemz˝oit tárolja : a nulladik, els˝o és második momentumokat. Az algoritmus során a klaszterek CF-értékeit tároljuk, a benne lév˝o elemeket nem. Egy klaszter CF-jéb˝ol ki tudjuk számolni a klaszter a´tmér˝ojét vagy akár két klaszter a´tlagos távolságát. A CF-ekb˝ol az algoritmus egy u ´ n. CF-fát ép´ıt fel. A CF-fa egy gyökeres, (lefelé) irány´ıtott fa. A fa leveleiben CF-értékek vannak, egy bels˝o pont pedig a pontból induló alfához tartozó klaszterek egyes´ıtéséb˝ol kapott CF-értéket tárolja. A fának két paramétere van. Az els˝o határozza meg a bels˝o pontból induló a´gak maximális számát (ágszám korlát). A második paraméter adja meg, hogy mekkora lehet maximálisan a levélhez tartozó klaszterek a´tmér˝oje. Ennek a paraméternek nagy hatása van a fa méretére : minél kisebb a maximális a´tmér˝o, annál több kis klasztert kell létrehozni, tehát annál nagyobb lesz a fa. A BIRCH algoritmus két fázisra oszlik. Az els˝oben az elemek egyszeri végigolvasása során felép´ıtj¨ uk a CF-fát. Ez már eleve egyfajta klaszterezést eredményez. A második fázisban minden


174

elemet besorolunk a hozzá legközelebbi klaszterbe, majd esetleg ebb˝ol kiindulva lefuttatunk egy particionáló algoritmust (például a k-közepet). Az els˝o fázis során kapott CF-fa – az a´gszám korlát miatt – nem valósz´ın˝ u, hogy meg fog felelni a természetes klaszterezésnek. Lehet, hogy bizonyos pontok, amelyeknek egy klaszterben kellene lenni¨ uk, szét lesznek választva, és a ford´ıtottja is el˝ofordulhat. S˝ot, az is megtörténhet, hogy ugyanazok az elemek a fa ép´ıtésének k¨ ulönböz˝o fázisaiban k¨ ulönböz˝o levelekbe fognak ker¨ ulni ! A cikk szerz˝oi javaslatot adnak az outlierek kisz˝ urésére : ha a CF-fában valamely levélben található pontok száma jóval kevesebb”, mint a levelekben található pontok a´tlagos száma, ” akkor törölj¨ uk a levelet, mert valósz´ın˝ uleg outliereket tartalmaz. A felhasználónak kell megadni az elemszámra vonatkozó k¨ uszöbszámot, ami alatt törölj¨ uk a leveleket. Vegy¨ uk észre, hogy ez a megoldás er˝os heurisztika. Számtalan példát lehetne mutatni, amikor fontos pontokat is töröl, miközben valódi outliereket a fában hagy. A BIRCH algoritmus tehát tényleg meg tud b´ırkozni igazán nagy méret˝ u adathalmazokkal, azonban rendelkezik szinte az o¨sszes rossz klaszterezési tulajdonsággal. Mivel a második szakaszban egyfajta k-közép algoritmust futtatunk, ezért a BIRCH-re is igazak a k-középr˝ol mondottak. De ezen k´ıv¨ ul érzékeny az adatok sorrendjére, és nem skála-invariáns, hiszen a CF-fában lév˝o klaszterek maximális a´tmér˝ojét a felhasználónak kell megadnia.

7.7.4. A CURE algoritmus A CURE (Clustering Using REpresentatives) algoritmus [70] a´tmenet a BIRCH és a single linkage eljárás között a reprezentáns elemek számát illet˝oen (a BIRCH-ben a középpont a reprezentáns pont, a single linkage-ben a klaszter o¨sszes elemét számon tartjuk.). Egy klasztert c darab (ahol c el˝ore megadott konstans) elem jellemez. Ezek az elemek próbálják megragadni a klaszter alakját. Ennek következménye, hogy a CURE nem ragaszkodik az eliptikus klaszterekhez. Hierarchikus eljárás lévén, kezdetben minden elem k¨ ulön klaszter, majd elkezd˝odik a klaszterek egyes´ıtése. Az egyes´ıtésnek három lépése van. I. A reprezentáns pontok alapján kiválasztja a két legközelebbi klasztert. Két klaszter távolságát reprezentáns pontjaik távolságának minimuma adja. II. Egyes´ıti a klasztereket, majd a 2c reprezentáns pont köz¨ ul kiválaszt c darabot, amelyek várhatóan jól fogják reprezentálni az egyes´ıtett klasztert. Ennek módja a következ˝o. Legyen az els˝o reprezentáns pont a középponttól legtávolabbi elem. A következ˝o c − 1 lépésben mindig az el˝oz˝oleg kiválasztott ponthoz képest a legtávolabbit válasszuk reprezentáns elemnek. III. A reprezentáns pontokat o¨sszeh´ uzza”, azaz az a´ltaluk kijelölt középpont felé mozdulnak ” u ´ gy, hogy az u ´ j távolság a középponttól az α-szorosa legyen az eredeti távolságnak. Ennek a lépésnek a célja az outlierek hatásának csökkentése. Az egyes´ıtés akkor ér véget, amikor a klaszterek száma eléri k-t. Az eljárás végeztével rendelkezés¨ unkre a´ll c reprezentáns ponttal jellemzett k darab klaszter. Ezután a teljes adatbázis egyszeri végigolvasásával az elemeket besoroljuk a hozzá legközelebbi klaszterbe a legközelebbi reprezentáns pont alapján.


175

A CURE algoritmust felkész´ıtették, hogy kezelni tudjon nagy adathalmazokat is. Véletlen mintát vesz, azt felosztja részekre, majd az egyes részeket klaszterezi (ez a rész tehát párhuzamos´ıtható). A kapott klaszterekb˝ol vég¨ ul kialak´ıtja a végs˝o klasztereket. A részletek és az algoritmus során felhasznált adatszerkezetek (k-d fa és kupac) iránt érdekl˝odöknek ajánljuk a [70]-t. A CURE algoritmus számos hibával rendelkezik : I. Az elemeknek vektortérben adottnak kell lenni¨ uk. II. Minden klasztert rögz´ıtett szám´ u reprezentáns pont jellemez. De miért jellemezzen ugyanannyi pont egy kis kör alak´ u klasztert és egy nagy am˝oba alak´ ut ? Természetesebb lenne, ha a reprezentáns pontok száma f¨ uggene a klaszter méretét˝ol és alakjától. III. A reprezentáns pontok kiválasztása sem t´ ul kifinomult. A módszer nem a klaszter alakját fogja meghatározni, hanem inkább egy konvex burkot. Gondoljuk meg, ha egy kör alak´ u klaszterben van egy bemélyedés, akkor a bemélyedés környékén található pontokat sosem fogja az eljárás reprezentásnak választani, hiszen o˝k közel vannak a többi ponthoz. Am˝oba alak´ u klaszternél tehát a reprezentáns pontok alapján nem lehet megállap´ıtani, hogy hol vannak a bemélyedések, ´ıgy azt sem dönthetj¨ uk el, hogy egy nagy ellipszissel van dolgunk, vagy egy érdekes alak´ u am˝obával. IV. Klaszter egyes´ıtése után a reprezentáns pontokat o¨sszeh´ uzzuk a középpont felé. Nagy klaszter esetében sok egyes´ıtés, ´ıgy sok o¨sszeh´ uzás van. Az o¨sszeh´ uzás a´ltal távolabb ker¨ ulnek a reprezentáns pontjai más reprezentáns pontoktól, ´ıgy egyre ritkábban lesz kiválasztva egyes´ıtésre. Mintha az algoritmus ,,b¨ untetné” a nagy klasztereket. V. Rosszul kezeli az eltér˝o s˝ ur˝ uség˝ u pontokat. Ezt leginkább az alábbi a´bra illusztrálja. A

r r r r r r r

r r r r r r r

r r r r r r r

1 r r r r r r r

r r r r r r r

r r r r r r r

r r r r r r r

r r r r r r r

r r r r r r r

r r r r r r r

2

r r r r r r r

r r r r r r r

r r r r r r r

r r r r r r r

t

t

t

t

t

t

t

t

t

t

t

t

3

t

t

t

4 t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

t

7.4. a´bra. Hibás klaszterezés : eltér˝o s˝ ur˝ uség˝ u klaszterek esetén CURE az 1-es és 2-es klasztereket fogja egyes´ıteni (azok reprezentáns pontjai vannak egymáshoz legközelebb) a 3-as és 4-es klaszterek egyes´ıtése helyett. Megjegyezz¨ uk, hogy az algoritmust bemutató cikk hossz´ u bevezet˝ojében éppen arra h´ıvta fel a figyelmet, hogy a mások a´ltal publikált algoritmusok mennyire rosszul kezelik a k¨ ulönböz˝o méret˝ u és am˝oba alak´ u klasztereket. Ennek ellenére a tesztekben bemutatott adathalmazban nagyságrendileg azonos méret˝ uek voltak a klaszterek és alakjuk elliptikus volt.


176

7.7.5. A Chameleon algoritmus A Chameleon két nagy fázisra oszlik. Kiindulásként el˝oa´ll´ıtja a k-legközelebbi gráfot, majd ezt részekre osztja. A második fázisban bizonyos részeket egyes´ıt, el˝oa´ll´ıtva ezzel a végleges csoportokat. A Chameleon az els˝o olyan hierarchikus algoritmus, amely a klaszterek egyes´ıtésénél nem csak a klaszterek távolságát (d(Ci , Cj )) veszi figyelembe, hanem az egyes klasztereken bel¨ uli távolságokat is, pontosabban a relat´ıv bels˝ o kapcsol´ od´ asukat (RI(C i , Cj )) is (relative interconnectivity). Abban az esetben egyes´ıt két klasztert, amennyiben d(Ci , Cj ) és RI(Ci , Cj ) is nagy értéket vesz fel. Ennek az o¨tletnek köszönhet˝o, hogy a Chameleon – szemben az eddigi algoritmusokkal – jól tud klaszterezni eltér˝o s˝ ur˝ uség˝ u adathalmazokat is. Nézz¨ uk meg, hogyan definiálja az algoritmus két klaszter relat´ıv bels˝o kapcsolódását és relat´ıv távolságát. Relat´ıv t´ avols´ ag Relat´ıv bels˝ o kapcsol´ od´ as

7.8. S˝ ur˝ us´ eg-alap´ u m´ odszerek A s˝ ur˝ uség alap´ u módszerek (density based methods) szerint egy klaszteren bel¨ ul jóval nagyobb az elemek s˝ ur˝ usége, mint a klaszterek között. Ez alapján lehet elválasztani a klasztereket és azonos´ıtani az outliereket.

7.8.1. A DBSCAN algoritmus A DBSCAN a legels˝o s˝ ur˝ uség-alap´ u eljárás [51]. A s˝ ur˝ uség meghatározásához két paramétert használ, egy sugár jelleg˝ u mértéket (eps) és egy elemszám k¨ uszöböt (minpts). A p elem szomszédai (Neps (p)) azok a elemek, amelyek p-t˝ol legfeljebb eps távolságra vannak. A q elem a p-b˝ol s˝ ur˝ uség alapon k¨ ozvetlen elérhet˝ o, ha q ∈ N eps (p) és |Neps (p)| ≥ minpts. Naivan azt gondolhatnánk, hogy egy klaszterben található elemek s˝ ur˝ uség alapon közvetlen elérhet˝ok egymásból. Ez nem ´ıgy van, hiszen a klaszter határán lév˝o elemek eps távolságán bel¨ ul nincs mindig minpts darab elem. A q elem s˝ ur˝ uség alapon elérhet˝ o p-b˝ol, ha léteznek p 1 = p, p2 , . . . , pn = q elemek u ´ gy, hogy pi+1 s˝ ur˝ uség alapon közvetlen elérhet˝o pi -b˝ol. A p és q elemek s˝ ur˝ uség alapon o ¨sszek¨ ot¨ ottek, ha létezik olyan o elem, amelyb˝ol p és q s˝ ur˝ uség alapon elérhet˝o. A klaszter defin´ıciója ezek alapján : 7.5. defin´ıci´ o. Az elemek egy C részhalmaza klaszter, amennyiben I. Ha p ∈ C és q s˝ ur˝ uség-alapon elérhet˝ o p-b˝ ol, akkor q ∈ C (maximalit´ as). II. Ha p, q ∈ C, akkor p és q s˝ ur˝ uség alapon o ¨sszek¨ ot¨ ottek. Egy elemet zajnak (noise) h´ıvunk, ha nem tartozik egyetlen klaszterbe sem. Legyen a C klaszter egy p eleme olyan, hogy |Neps (p)| ≥ minpts. Ekkor könny˝ u belátni, hogy C megegyezik azoknak a elemeknek a halmazával, amelyek p-b˝ol s˝ ur˝ uség alapján elérhet˝ok. E tulajdonságot használja az algoritmus. Válasszunk egy tetsz˝oleges elemet (p) és határozzuk meg a s˝ ur˝ uség alapján elérhet˝o elemeket. Amennyiben |Neps (p)| ≥ minpts feltétel teljes¨ ul, akkor


177

meghatároztunk egy klasztert. A feltétel nemteljes¨ ulés nem jelenti azt, hogy p zaj, lehet, hogy egy klaszter határán helyezkedik el. |Neps (p)| < minpts esetén egyszer˝ uen válasszunk egy u ´j elemet. Ha már nem tudunk u ´ j elemet választani, akkor az algoritmus véget ér. Azokat az elemeket tekintj¨ uk zajnak (outliernek), amelyeket nem soroltunk semelyik klaszterbe. A DBSCAN algoritmus el˝onye, hogy tetsz˝oleges alak´ u klasztert képes felfedezni, és ehhez csak az elemek távolságát használja. Hátránya, hogy rendk´ıv˝ ul érzékeny a két paraméterre (eps, minpts). S˝ot amennyiben a klaszterekben található elemek s˝ ur˝ usége eltér˝o, akkor nem biztos, hogy lehet olyan paramétereket adni amivel a DBSCAN jó eredményt ad. Weka 3.5.7 A DBScan algoritmust a weka.clusterers.DBScan oszt´ aly implement´ alja.

8. fejezet Id˝ osorok elemz´ ese

178

9. fejezet Sz¨ ovegb´ any´ aszat Az ´ırástudó emberi civilizációk kialakulása o´ta a tudást szöveges dokumentumok formájában tárolják. Az o˝si egyiptomiak is szöveges dokumentumokat hagytak az utókorra, azonban hieroglifikus ´ırásuk megfejtése korántsem bizonyult könny˝ u feladatnak. A szöveg megértését vég¨ ul az seg´ıtette el˝o, hogy a feliratok több nyelven szerepeltek ugyanazon a kövön, amelyek köz¨ ul az egyik görög volt a másik kett˝o egyiptomi. Ezáltal a görög nyelv szolgált kulcsként a hieroglifák megfejtéséhez, ez seg´ıtett a templomok és piramisok falán és a papirusz tekercseken talált szövegekben lév˝o tudás feltárásában. Az o˝si egyiptomi hieroglifák megfejtéséb˝ol két dolgot tanulhatunk : egyrészt, hogy a szöveges dokumentumok az emberiség egyik o˝si emlékezeti mechanizmusa, fontos megb´ızhatóan tárolni az adatokat és rendelkezni kell azzal a képességgel, hogy ha sz¨ ukséges visszanyerj¨ uk ezeket a dokumentumokat. Másrészt azt, hogy a dokumentumok szimpla elérése nem elegend˝o, a tudás feltárása speciális gyakorlatot és er˝oforrást igényel. Napjainkban, amikor a dokumentálási és adminisztrációs folyamatok t´ ulnyomó része elektronikusan valósul meg — és ezáltal rendk´ıv¨ ul nagy mennyiség˝ u elektronikus dokumentum keletkezik —, megfigyelhet˝o az a trend, hogy az adminisztrat´ıv munkát végz˝ok munkaidej¨ uk egyre növekv˝o hányadát ford´ıtják (elektronikus) dokumentumok kezelésére. M´ıg ez csupán 20%-ot tett ki 1997-ben, addigra 2003-ban már 30–40%-ra becs¨ ulték ezt az arányt az [21, 83] munkákban idézett Gartner Group tanulmányban. A Merill Lynch elemz˝oi szerint az u ¨ zleti információk 85%a struktur´ alatlan adat formájában van jelen, mint pl. e-mailek, emlékeztet˝ok, u ¨ zleti és kutatási beszámolók, prezentációk, h´ırek, reklámanyagok, weboldalak, u ¨ gyfélszolgálati tevékenység jegyzetei, stb. [21]. Az adatbányászati módszerekkel az adatbázisokban struktur´ altan t´ arolt adatokból nyerhet˝ok ki o¨sszef¨ uggések. Ezek a módszerek nem m˝ uködnek a strukturálatlan, a´ltalános t´ıpus´ u, szöveges adatokra. Ezért a struktur´ alatlan szöveges adathalmazok hasonló cél´ u feldolgozása más megoldásokat tesz sz¨ ukségessé. Az ezzel foglalkozó szakter¨ uletet sz¨ ovegb´ any´ aszatnak nevezz¨ uk. Az adatbányászat defin´ıciójával analóg módon, a sz¨ ovegb´ any´ aszatot dokumentumokon végzett olyan jelleg˝ u feldolgozási és elemzési tevékenységként határozhatjuk meg, melynek célja a dokumentumokban rejtetten meglév˝o u ´ j informáciok feltárása, azonos´ıtása. A szövegbányászat alapvet˝o problémája nyilvánvaló : a természetes nyelvek emberek közti — els˝osorban szóbeli, majd kés˝obb ´ırásbeli — kommunikáció miatt keletkeztek és fejl˝odtek ki, és nem szám´ıtógépes feldolgozásra. Az emberek könnyedén felismerik és alkalmazzák a nyelvi mintákat, és a´ltalában nem okoz gondot nekik olyan, a szám´ıtógépek számára nehezen megoldható feladatok, mint pl. k¨ ulönböz˝o helyes´ırási variációk kezelése, kontextus felismerés, vagy stilisztikai jelleg azonos´ıtása. Tehát nyelvi tudásunk lehet˝ové teszi a strukturálatlan szövegek 179

¨ ´ ´ 9. FEJEZET. SZOVEGB ANY ASZAT (TIKK DOMONKOS)

180

9.1. a´bra. A szövegbányászat a´ltalános modellje megértését, ugyanakkor nincs meg benn¨ unk a szám´ıtógépeknek az a képessége, hogy a szöveget nagy mennyiségben, vagy nagy sebességgel dolgozzuk fel. A szövegbányászat a´ltalános célja tehát az emberi nyelvi tudás o¨tvözése a szám´ıtógép nagy sebességével és pontosságával [55]. A szövegbányászat a´ltalános modellje a 9.1 a´brán látható. A kiinduló pont a dokumentumok halmaza, amin el˝oször el˝ofeldolgozási lépéseket hajtunk végre (ld. 9.1. szakasz). Ezután hajtjuk végre a szövegbányászati módszereket, majd az eredményeket információkezel˝o rendszerben tároljuk. A felhasználó ebb˝ol tudja az igényeinek megfelel˝o tudást megszerezni. Olyan problémákkal, amelyekre a szövegbányászat ny´ ujthat megoldást az u ¨ zleti élet szerepl˝oi és az a´tlagos felhasználók egyaránt gyakran találkoznak. A nagy forgalmat lebonyol´ıtó u ¨ gyfélszolgálatoknál például hatalmas mennyiség˝ uu ¨ gyféllel történ˝o beszélgetés zajlik naponta. Ezek jellemz˝o tartalma, fontosabb témái, az u ¨ gyfélkör igényeinek változása a szolgáltatónak fontos információt jelent, amellyel hatékonyan reagálhat a piac változásainak kih´ıvásaira. Szintén fontos információt hordozhat u ¨ zleti döntéshozók számára a konkurens cégekr˝ol, ill. termékekr˝ol szóló u ¨ zleti h´ırekr˝ol szóló automatikus értes´ıtés. Az a´tlagos felhasználók köz¨ ul is mindenki szembes¨ ult már a kulcsszó-alap´ u keresés korlátaival. Ha többértelm˝ u keres˝okifejezést használunk — a tipikus példák : jagu´ ar (állat, autómárka), saturn (bolygó, elektronikai cég, autót´ıpus), tus (zuhany, ´ırószer, v´ıvás, zene) 1 —, akkor a keresés finom´ıtására van sz¨ ukség a k´ıvánt információ elérésére. Ha a kontextus megadható lenne, vagy a keresett oldalak tematizáltan lennének tárolva, akkor az jelent˝osen megkönny´ıtené a keresést. A keres˝ok gyakran adnak eredmény¨ ul nagyméret˝ u, akár több száz oldalas dokumentumokat, amely nyilván több témát is tárgyal, és nem feltétlen¨ ul releváns a keres˝o számára. Ahhoz, hogy a felhasználó megtalálja a neki fontos információt bele kell mélyednie a szövegbe, ami rendk´ıv¨ ul id˝oigényes. Erre a problémára a szövegbányászat az o¨sszegzéskész´ıt˝o módszereket k´ınálja megoldásként, amelyek automatikusan o¨sszefoglalják a dokumentum tartalmát, aminek alapján a felhasználó már könnyebben tájékozódhat. Az eddig ismertettet példák csak ´ızel´ıt˝ot ny´ ujtanak a szövegbányászat már létez˝o és jöv˝obeli felhasználásairól. Miel˝ott a következ˝o szakaszokban mélyebbrehatóan elkezd¨ unk foglalkozni a témával, a 9.1 táblázatban o¨sszefoglaljuk a szövegbányászat alapvet˝o ismérveit o¨sszehasonl´ıtva az adatbányászattal.

9.1. Dokumentumok el˝ ofeldolgoz´ asa Mint azt a 9.1 a´brán láttuk a szövegbányászati feladatok megoldásának els˝o lépése a szövegek el˝ofeldolgozása, aminek célja hogy megfelel˝o, egységes gépi reprezentációs alakra hozzuk o˝ket. Egy teljesen a´ltalános szövegreprezentációs modellnek rendk´ıv¨ ul széleskör˝ u tudást kell magában foglalnia, többek között például a természetes nyelvtanokat is. Els˝o megközel´ıtésben azonban csak statisztikai elemzések elvégzésére alkalmas modellt keres¨ unk, amelyben a gépi 1´

Erdekes, hogy a nemzetk¨ ozi keres˝ ok erre a keres˝ osz´ ora a nyomtat´ oval kapcsolatos cikkeket is tal´ alnak a t˝ us sz´ o ékezetnélk¨ uli reprezent´ aci´ oja miatt. A példa j´ ol mutatja: a hatékony sz¨ ovegb´ any´ aszati alkalmaz´ asok — bizonyos részben — nyelvf¨ ugg˝ ok.


181

9.1. táblázat. Az adat- és szövegbányászat o¨sszehasonl´ıtása ([83] felhasználásával)

az elemzés tárgya az adatok jellege az adatok tárolási helye feladat

módszerek

jelenlegi piacméret világszinten széleskör˝ u piaci megjelenés ideje

adatbányászat numerikus és t´ıpusba sorolható strukturált

szövegbányászat szabadformátum´ u szöveges dokumentum strukturálatlan

relációs adatbázis

tetsz˝oleges dokumentumgy˝ ujtemény szövegelemzés, kategorizálás ; o¨sszegzéskész´ıtés ; vizualizálás ; csoportos´ıtás, stb. dokumentum indexelés, speciális neurális hálózatok, szám´ıtógépes nyelvészeti eszközök, ontológiák 100.000.000 vállalati munkatárs és egyéni felhasználó 2000-t˝ol

o¨sszef¨ uggések feltárása, jöv˝obeni szituációk el˝orejelzése

neurális hálózatok, döntési fák, statisztikai modellek, klaszteranal´ızis, id˝osorok elemzése, stb. 100.000 elemz˝o a nagy és közepes vállalatoknál 1994-t˝ol

tanulás algoritmusai hatékony alkalmazhatók, mint pl. az adatbányászat esetében a korábbi fejezetekben ismertetett módszerek. Mivel a szövegeket a szám´ıtógép nem tudja értelmezni, ezért sz¨ ukség van egy olyan eljárásra, amely a szövegek tartalmát tömören reprezentálja, és amely természetesen bármely dokumentumra alkalmazható. A továbbiak során — ha ett˝ol eltér˝oen nem jelezz¨ uk — a reprezentáció egységének a szavakat tekintj¨ uk. Egyes módszerek több szóból a´lló kifejezéseket is alkalmaznak, amely azonban jelent˝osen megnöveli a dokumentumok feldolgozásának (indexelésének) idejét, valamint a tárigényt. Az információ-visszakeresés (information retrieval IR) ter¨ uletén a dokumentumokat leggyakrabban a vektortér-modell seg´ıtségével vannak reprezentálva [146]. A dokumentumokat szintaktikai szabályok seg´ıtségével felbontjuk tokenekre (legegyszer˝ ubb esetben a szóköz elválasztó karakter alkalmazásával ; ekkor a tokenek szavak), és a tokeneket sz´ ot¨ ovez˝ o seg´ıtségével kanonikus alakra hozzuk, azaz a szót˝ovel helyettes´ıtj¨ uk (ld. még 9.7 szakasz). Az egyszer˝ uség kedvéért a továbbiakban a kanonikus alakot sz´ o nak nevezz¨ uk. A dokumentumgy˝ ujteményben el˝oforduló k¨ ulönböz˝o szavak alkotják a sz´ ot´ ar at, vagy más néven lexikont. Minden tengely egy szót reprezentál, a dokumentumokat pedig vektorként a´brázoljuk a szavak a´ltal kifesz´ıtett vektortérben. A dokumentumok gy˝ ujteményét sz´ o–dokumentum m´ atrix szal M ×N reprezentáljuk (A ∈ R ), amelynek valamely aij elem az i-edik szó el˝ofordulásait repre-


182

zentálja a j-edik dokumentumban, vagyis az i-edik tengelyhez tartozó szó relevanciáját, s´ ulyát adja meg a d dokumentumra vonatkozóan. A sorok száma, M , megegyezik a szótár méretével, N pedig a dokumentumok száma. Mivel a´ltalában egy dokumentumban az egész szótárból kevés szó fordul el˝o, az A mátrix ritka. M rendk´ıv¨ ul nagy is lehet, ebb˝ol adódóan a szövegek kezelésének egyik problémája a vektortér magas dimenziója. A dimenziószám csökkentésére vonatkozó módszereket a 9.1.1 pontban tekintj¨ uk a´t. Az aij érték megválasztására több lehet˝oség van. A legegyszer˝ ubb a bin´ aris reprezent´ aci´ o: ( 1, ha nij > 0 aij = , (9.1) 0, ha nij = 0 ahol nij az i szó el˝ofordulásának száma a j dokumentumban. Ezt az értéket szintén választhatjuk az adott szó fontosságának megfeleltetéseként : aij = nij . A dokumentumokat reprezentáló vektorokat normálhatjuk, hogy hosszuk 1 legyen pl. az k · k 1 , k · k2 vagy k · k∞ norma szerint. Ha k · k1 -t választjuk, akkor az el˝obbi érték aij = nij /n = fij

(9.2)

lesz, ahol fij a szó dokumentumbeli gyakoris´ agát jelöli (TF s´ ulyozás). A ??tm :eq :TF) s´ ulyozási séma azonos fontosság´ unak kezeli az o¨sszes szótárbeli szót, holott nyilván a témaspecifikus szavak, mint pl. ,,adatbányászat” jellemz˝obbek egy dokumentum tartalmára mint a nével˝ok, határozók, névutók, stb., pl. ,,az”, ,,hogy”, ,,alatt”. Ha i szó n i dokumentumban fordul el˝o, akkor ni /N a szó ritkaságát, azaz fontosságát jellemzi a gy˝ ujteményben. 2 Az IDF (i) = 1+log(ni /N ) inverz dokumentum frekvencia értéke a vektortér-modell egyes tengelyeit k¨ ulönböz˝o mértékben ny´ ujtja meg. Így kaphatjuk meg a legnépszer˝ ubb, u ´ n. TFIDF3 s´ ulyozási sémát : aij = fij · IDF (i). (9.3) Ezen k´ıv¨ ul más, bonyolultabb s´ ulyozási sémák is ismertek, amelyek a dokumentumok hosszát, illetve az egyes szavak információ elméleti alapon szám´ıtott entrópiáját is figyelembe veszik [1, 46, 145].

9.1.1. A dimenzi´ osz´ am cs¨ okkent´ ese Már kisebb dokumentumgy˝ ujtemények esetén (néhány t´ızezer dokumentum) a szótár mérete jellemz˝oen többszázezres nagyságrend˝ u, amellyel a´ltalában az algoritmusok nagy része nem tud megbirkózni a nagy szám´ıtási és memória igény miatt. Ha csak 100.000 a´tlagosan 1000 k¨ ulönböz˝o szót tartalmazó dokumentumunk van, annak hatékony tárolása is legalább 2 · 10 8 = = 0,2 GB memóriát igényel. A szótár méretének a csökkentése tehát kiemelked˝o fontosság´ u feladat, hiszen ezzel mind a gy˝ ujtemény reprezentálásához sz¨ ukséges memória 4 , mind pedig az 2

IDF -nek t¨ obb defin´ıci´ oja létezik. Egy alternat´ıv verzi´ o : IDF (i) = log(N/n i ). terminus frekvencia és inverz dokumentum frekvencia 4 Bizonyos tanul´ asi feladatokhoz, pl. kategoriz´ al´ as esetén, az egész gy˝ ujteményt a mem´ ori´ aban kell t´ arolni. Ha ez csak lapoz´ ofile alkalmaz´ as´ aval lehetséges, az jelent˝ osen meghosszabb´ıtja a fut´ asi id˝ ot. 3


183

algoritmusok futási igénye csökkenthet˝o. A dimenziószám csökkentése a mintafelismerés (pattern recognition) szakirodalmában jól ismert feladat. Az ismert eljárások két csoportba sorolhatók : jellemz˝ok kiválasztása és u ´ jraparaméterezés. Szövegbányászati alkalmazásukat a [186] tanulmány tekinti a´t. A jellemz˝ ok kiv´ alaszt´ asa A legegyszer˝ ubb eljárások az alábbi két empirikus megfigyelésen alapulnak : – Minél több dokumentumban szerepel egy szó, annál kisebb mértékben jellemzi a dokumentumok tartalmát, azaz annál kisebb a megk¨ ulönböztet˝o képessége és az információ tartalma. – Minél ritkábban fordul el˝o egy szó az adott dokumentumgy˝ ujteményen bel¨ ul, annál kevésbé releváns. A fenti megfigyelések alapján a dokumentum frekvencia k¨ usz¨ ob¨ ol˝ o (Document Frequency Thresholding) módszer elhagyja a θ1 k¨ uszöbérték alatti frekvenciával rendelkez˝o szavakat, és a θ2 k¨ uszöbérték feletti ni értékkel rendelkez˝o szavakat. A módszer azzal a feltételezéssel él, hogy az els˝o kategóriába es˝o szavak kicsiny információ tartalm´ uak, és nem befolyásolják jelent˝osen pl. a kategorizálás hatékonyságát, m´ıg a második kategóriába es˝o szavak nem diszkriminat´ıvok. Ide sorolható még az u ´ n. funkci´ o szavak elhagy´ asa 5 is, amelyek a szöveg tartalmára vonatkozóan nem b´ırnak jelent˝os információtartalommal. A funkció szavak listája nyilván minden nyelven más, de akár a dokumentumgy˝ ujtemény témájától és a´ltalánosságától is f¨ ugghetnek [64]. Kategorizálásnál használnak még a szavak és kategóriák egy¨ uttes el˝ofordulásából becs¨ ult információ elméleti és statisztikai mértékeket. Az információs nyereség módszer esetén minden szóra megvizsgálják, hogy van-e olyan kategória, amelyben az el˝ofordulása vagy el˝o nem fordulása kiugró. Az ´ıgy kapott értékeket o¨sszegezve a valamely k¨ uszöbérték alatti szavakat kevéssé diszkriminat´ıvnak tekintve elhagyjuk. Hasonló elven m˝ uködik a kategóriák és szavak közti f¨ uggetlenség hiányát vizsgáló χ2 -statisztikán alapuló módszer [1]. ´ Ujraparametriz´ al´ as Az u ´ jraparametrizálás során u ´ j jellemz˝oket a´ll´ıtunk el˝o a vektortér eredeti jellemz˝oi (dimenziói) kombinációiként. A legismertett ilyen módszer a szinguláris értékfelbontáson (SVD) alapuló látens szemantikus indexelés (LSI) [18, 43]. Az LSI módszer feltételezi, hogy a dokumentumok szóhasználati mintázatában létezik egy elrejtett, azaz látens strukt´ ura, és hogy ezt statisztikai módszerekkel közel´ıteni lehet. A sajátérték-felbontáson alapuló SVD seg´ıtségével kiválaszthatók azok a valamely legnagyobb K sajátértékhez tartozó jellemz˝ok, melyek az A szó–dokumentum mátrixot kell˝oen jól reprezentálják. A K értéke lényegesen kisebb M -nél. Az LSI azokat a dokumentumokat, amelyek sok hasonló szót tartalmaznak szemantikailag közelinek, és azokat, amelyek kevés közös szót tartalmaznak, szemantikailag távolinak értékeli. Ez az egyszer˝ u módszer meglep˝oen jól korrelál azzal, ahogy egy ember, aki a dokumentumot a´tnézi, besorolja az adott dokumentumgy˝ ujteményt. 5

Angol szakirodalomban function words vagy stopwords.


184

Annak ellenére, hogy az LSI algoritmus algebrai módszert használ, tehát nem ért semmit a szavak jelentéséb˝ol, meglep˝oen jó szemantikai következtetésekre ad lehet˝oséget, azaz ,,rendk´ıv¨ ul intelligensnek t˝ unik”.

9.1.2. Hat´ ekonys´ ag m´ er´ ese K¨ ulönböz˝o jelleg˝ u szövegbányászati módszerek hatékonyságát más-más kiértékel˝o mértékkel vizsgáljuk. Természetesen a hatékonyság mérésére csak akkor van lehet˝oség, ha rendelkezésre a´ll a várt eredmény, ami csak bizonyos szövegbányászati módszerek esetén lehet adott, pl. kategorizálásnál. Ekkor ugyanis, ha olyan dokumentumgy˝ ujteményen tesztelj¨ uk a módszert, ahol az egyes dokumentumok kategóriája ismert, akkor könnyen ellen˝orizhetj¨ uk a módszer helyességét. Ezzel szemben pl. kivonatolás esetén nehéz egy optimális eredményt o¨sszehasonl´ıtási alapnak tekinteni, amely bárki szerint az adott szöveg legjobb kivonata, mivel a kivonat emberi meg´ıtélése szubjekt´ıv. Ezért ilyen esetekben csak tapasztalati, heurisztikus módszerek vannak a hatékonyság mérésére, illetve a k¨ ulönböz˝o eredmények o¨sszehasonl´ıtására, rangsorolására. A k¨ ulönböz˝o feladatt´ıpusokhoz tartozó mértékeket az adott szakaszon bel¨ ul fogjuk tárgyalni.

9.2. Oszt´ alyoz´ as Adatbányász módszerek jellemz˝oen relációs adatbázisokon m˝ uködnek, ahol az adatok strukturáltan, oszlopokba és sorokba rendezve vannak tárolva. Hasonló módon lehet˝oség van a strukturálatlan adatok hierarchikus strukt´ urába, u ´ n. taxon´ omi´ a ba való rendszerezésére is. A taxonómia u ´ gy m˝ uködik, mint egy szám´ıtógépes könyvtárstrukt´ ura, ami kézenfekv˝o és intuit´ıv eszközt ad a navigálásra és az információk elérésére, keresésére [21]. A dokumentumok tartalmuk alapján tematikus kateg´ oriarendszer be (kategóriákba) történ˝o besorolását oszt´ alyoz´ asnak (más néven kategoriz´ al´ asnak) nevezz¨ uk, ami az egyik legalapvet˝obb szövegbányászati feladat. A kategóriák rögz´ıtettek és el˝ore adottak. A kategóriák egymáshoz való viszonya alapján beszélhet¨ unk egyszer˝ u oszt´ alyoz´ asról — ilyenkor nincs semmilyen o¨sszef¨ uggés az egyenrang´ u kategóriák között, illetve hierarchikus oszt´ alyoz´ asról — amikor a kategóriák egy strukturált rendszert, a´ltalában fát, vagy körmentes irány´ıtott gráfot alkotnak. Ebben az értelemben a taxonómia tehát kategóriák hierarchikus rendszere. Az u ¨ zleti alkalmazásokban azonban két ok miatt még nem t´ ul elterjedt a dokumentumok taxonómiába rendezése. Egyrészt a taxonómia megalkotása és fenntartása nehéz feladat. Olyan szakért˝ot k´ıván, aki a´tlátja az egész cég u ¨ zleti szervezetét, és rendszerez˝o képességgel b´ır. A taxonómia mérete igen nagy lehet, akár több ezer kategóriát is tartalmazhat. 6 Egy cég profiljának, termékeinek változása a taxonómia változtatásának sz¨ ukségességét is magával vonja, ami szintén id˝oigényes és költséges feladat. Egyébként az automatikus taxonómiakész´ıt˝o módszerek csak az utóbbi években kezdtek megjelenni a piacon (Verify, Stratify, Inxight, Autonomy). A másik nagy akadályt a piacon lév˝o szoftverek osztályozási szempontból gyenge hatékonysága jelenti. Ez részben annak tudható be, hogy viszonylag egyszer˝ u algoritmusokat alkalmaznak az a´ltalános feladat nehézségéhez képest, részben pedig annak, hogy ezek az algoritmusok jelent˝os szám´ u tanulóadatot igényelnek, és amelyre nem szán id˝ot az u ¨ zleti felhasználó. 6

Erre j´ o példa a nemzetk¨ ozi szabadalmi hivatal a ´ltal kifejlesztett IPC taxon´ omia: http://www.wipo.org/ classifications/fulltext/new_ipc/index.htm


185

9.2.1. Oszt´ alyoz´ as struktur´ alatlan kateg´ ori´ ak rendszer´ ebe Az osztályozási feladatok között a dokumentum–kategória reláció jellegét˝ol f¨ ugg˝oen az alábbi megk¨ ulönböztetést tessz¨ uk : – Bin´ aris oszt´ alyoz´ asnak nevezz¨ uk, amikor csak egy kategória adott, és a dokumentumokról azt kell eldönteni, hogy ebbe beletartoznak-e vagy sem. – Egyc´ımkés oszt´ alyoz´ as (multi-class) esetén t¨ obb kategória adott, és minden dokumentumok legfeljebb egy kategóriához tartozik. – T¨ obbc´ımkés oszt´ alyoz´ as (multi-label) esetén szintén t¨ obb kategória adott, de minden dokumentum t¨ obb kategóriába is beletartozhat. – T¨ obbszint˝ u oszt´ alyoz´ as (multi-level) esetén szintén t¨ obb kategória adott, és egy dokumentumnak lehetnek els˝odleges, másodlagos stb. kategóriái.7 Az automatikus osztályozás tipikus fel¨ ugyelt tanul´ asi feladat (supervised learning), amikor megadott tanuló példák alapján az osztályozót képessé tessz¨ uk arra, hogy felismerje az egyes osztályokba tartozó dokumentumok jellegzetességeit. Adott tehát egy tanul´ o dokumentumhalmaz, ahol a dokumentumok a kategóriájukkal fel vannak c´ımkézve. Az algoritmus el˝oször ez alapján megtanulja a kategóriák jellemz˝oit, majd ismeretlen kategóriáj´ u dokumentumok c´ımkéjére ad becslést. A fel¨ ugyelt tanuláshoz a dokumentumgy˝ ujteményt két diszjunkt halmazra bontjuk, tanul´ oés teszthalmaz ra : DTrain ∩DTest = ∅, and DTrain ∪DTest = D. A tanuló halmaz egy részét gyakran a módszerek megfelel˝o paramétereinek beáll´ıtásához használjuk, ezt valid´ aci´ os halmaz nak nevezz¨ uk. Legyen adott továbbá K szám´ u kategória, C = {c 1 , . . . , cK }, és minden c kategóriához egy Dc tanuló dokumentumhalmaz. Egy kategóriához Nj = Dcj dokumentum tartozik. Az egész P tanulóhalmaz tehát N = K j=1 Nj = |DTrain | dokumentumot tartalmaz. A feladat egy ismeret~ len d = (d1 , . . . , dM ) ∈ D dokumentum kategorizálása. A következ˝okben ismertetett módszerek a´ltalában az els˝o három feladatt´ıpus megoldására alkalmasak, ett˝ol eltér˝o esetben ezt k¨ ulön jelezz¨ uk. Naiv Bayes-m´ odszer A na´ıv Bayes-módszer (pl. [87]) valósz´ın˝ uség szám´ıtási alapon m˝ uköd˝o osztályozó [108]. A tanulóhalmaz alapján egy besorolandó dokumentumhoz a Bayes-tétel alapján megbecs¨ uli az egyes kategóriákhoz való tartozás valósz´ın˝ uségét, P (cj |d) =

P (cj )P (d|cj ) , P (d)

(9.4)

ahol a nevez˝o mindig ugyanaz, tehát elhagyható. A módszer elnevezésében a na´ıv jelz˝o arra — az egyébként a´ltalában nem helytálló — feltételezésre utal, hogy a változók (szavak) feltételesen 7

A t¨ obbszint˝ u oszt´ alyoz´ as esetén a feladat a ´ltal´ aban hierarchikus kateg´ oriarendszerrel p´ arosul, ezért — b´ ar struktur´ alatlan kateg´ oriarendszer esetén is értelmezhet˝ o a probléma — ezt a 9.2.2 pontban t´ argyaljuk.


186

f¨ uggetlenek, ha a kategória adott. Így a P (d|cj ) értékének becslése — amely nagy szám´ u tanulóadat esetén bonyolult feladat — lényegesen leegyszer˝ usödik, és ezért a ??eq :Bayes) kifejezés az alábbiak szerint ´ırható fel : P (cj |d) = P (cj )

M Y i=1

P (di |cj ).

A P (cj ) valósz´ın˝ uség a tanuló példák gyakorisága alapján megbecs¨ ulhet˝o : Nj Pˆ (C = cj ) = , N valamint Pˆ (di |cj ) =

1 + Nij , P M+ M k=1 Nkj

ahol Nij az i-edik szó el˝ofordulása a Dcj dokumentumokban. ´ Erdekes módon annak ellenére, hogy a szavak f¨ uggetlen el˝ofordulására vonatkozó kiinduló feltételezés a´ltalában nem igaz, a módszer igen jó eredményt ad, amit elméleti eredmények is alátámasztanak [45]. S˝ot, ha bonyolultabb, s ezáltal nagyobb szám´ıtásigény˝ u valósz´ın˝ uségi modellt használunk [99], akkor sem javul jelentékenyen a hatékonyság. Legk¨ ozelebbi szomsz´ edokon alapul´ o oszt´ alyoz´ o (k-NN) Egy adott dokumentum besorolásakor e módszer valamilyen távolságfogalom seg´ıtségével megvizsgálja, hogy a tanuló adatok köz¨ ul melyik k dokumentum vektora hasonl´ıt legjob~ ban a vizsgált d vektorhoz. Ezen vektorokhoz tartozó kategóriák távolság arányában történ˝o s´ ulyozásából feláll´ıtható a dokumentumhoz tartozó kategóriáknak rangsora. A hasonlóság megállap´ıtására a´ltalában a koszinusz- vagy az euklideszi-távolságot használják. A módszer az u ´ n. lusta tanul´ o eljárások közé tartozik, vagyis a tanulóhalmazt nem dolgozza fel el˝ore, hanem csak az adott dokumentum feldolgozása során végez döntést. A k paraméter beáll´ıtását, ami része az osztályozó megalkotásának, tapasztalati u ´ ton végzik a valid´ aci´ os adatok on. A vizsgálatok azt mutatták ki [184], hogy 30 ≤ k ≤ 45 értékek adják a legjobb eredményt. A k-NN módszer nem line´ aris oszt´ alyoz´ o, ezért a Rocchio-eljárásnál ismertetett problémák nem jelentkeznek. Az eredmények azt mutatják (9.2.1 szakasz), hogy a módszer elég hatékony. A legf˝obb hátránya, a futási id˝oben jelentkez˝o magas szám´ıtási igény, hiszen egy dokumentum osztályozásához az egész tanulóhalmazt rangsorolni kell, ami lényegesen bonyolultabb, mint pl. a lineáris osztályozóknál egy szorzás végrehajtása. D¨ ont´ esi fa alap´ u sz¨ ovegoszt´ alyoz´ ok Döntési fán alapuló szövegosztályozó egy olyan fa, amelyben a közbens˝o csomópontok szavak (szótári elemek), a csomópontokból kiinduló a´gakat az adott szó teszt dokumentumbeli el˝ofordulásának s´ ulya határozza meg, a levelek pedig kategóriákkal vannak c´ımkézve. Az ~ osztályozás a d tesztdokumentumban a döntési fa csomópontjaihoz tartozó szavak s´ ulyának rekurz´ıv vizsgálata alapján történik, a dokumentumhoz vég¨ ul a levél kategóriac´ımkéjét rendelj¨ uk


187

hozzá. A döntési fa alap´ u szövegosztályozók a´ltalában bináris reprezentációt használnak, ´ıgy a döntési fa is bináris. A legtöbb szövegosztályozó standard döntési fa tanuló csomagot használ, mint az ID3, a ´ C4.5, a C5, ill. CHART vagy CHAID. Altal´ anosságban a c kategóriához tartozó döntési fa megtanulása az ,,oszd meg és uralkodj” stratégia két lépéséb˝ol a´ll : (1) annak ellen˝orzése, hogy minden tanuló dokumentumnak ugyanaz-e a c´ımkéje (c vagy c) ; (2) ha nem, akkor egy olyan dj szó kiválasztása, amely a tanulóhalmazt u ´ gy particionálja, hogy az egyes osztályokban a d j értéke megegyez˝o legyen, és ezek az osztályok k¨ ulönböz˝o részfába tartozzanak be. A módszer addig folytatódik rekurz´ıvan, am´ıg az egyes a levelekbe csak azonos kategóriába tartozó tanulóadatok vannak. A t´ ultanulást a döntése fa csonkolásával lehet megakadályozni. A témát részletesen a [121, 3. fejezet] tárgyalja. Neur´ alis h´ al´ ozat alap´ u m´ odszerek A szövegosztályozást olyan neurális hálózattal valós´ıtják meg, ahol a bemeneti réteg neuronjai a szavaknak felelnek meg, a kimeneti réteg a kategóriákat reprezentálja, a rétegek közti s´ uly pedig a f¨ ugg˝oségi relációt jellemzi. Egy dokumentum osztályozása esetén a bemeneti neuronok értéke a dokumentum vektora lesz, és hálózat kimenete határozza meg a osztályozási döntést. A hálózat tan´ıtása visszacsatolt módszerrel történik : ha egy szöveget rosszul kategorizál a hálózat, akkor a hibát visszacsatolva módos´ıtjuk a s´ ulyok értékét, ily módon minimalizálva a hibát. A neurális hálózat alap´ u szövegosztályozó az inkrement´ alis m´ odszer ek közé tartozik, azaz az els˝o néhány tanulóadat alapján felép´ıtett kezdeti osztályozót az u ´ jabb tanulódokumentumok vizsgálata során módos´ıthatja. Ez az adaptivitás el˝onyös lehet, ha a kategóriák tartalma módosul, vagy ha nem a´ll a tanulás kezdetén rendelkezésre az o¨sszes tanulóadat. Az egyik legegyszer˝ ubb esete ennek a perceptron algoritmus [40, 153, 182]. Kiinduláskor a bemeneti s´ ulyok értékét azonosra a´ll´ıtjuk. A bináris reprezentációval (9.1) reprezentált d~ dokumentumot a már felép´ıtett osztályozóval kategorizáljuk. Ha ez sikeres, akkor semmit nem módos´ıtunk rajta, viszont, ha nem, akkor az alábbi módon változtatjuk a s´ ulyokat. A perceptron addit´ıv s´ ulybe´ all´ıt´ ast használ : ha d~ a c kategóriára pozit´ıv példa, akkor ,,akt´ıv” (dj = 1) szavak s´ ulyát α > 0 tanul´ asi r´ at´ a val növelj¨ uk ; ellenkez˝o esetben pedig α-val csökkentj¨ uk. A tanulás végén a kicsiny s´ uly´ u szavak negat´ıv példákat jelentenek a kategóriára vonatkozóan, ´ıgy ki lehet o˝ket hagyni a szótárból, ezzel is csökkentve a vektortér dimenzióját (vö. 9.1.1 szakasz) [40]. Multiplikat´ıv s´ ulybe´ all´ıt´ ast alkalmaznak a k¨ ulönböz˝o verziój´ u Winnow algoritmusok [40], ahol α1 > 1, ill. 0 < α2 < 1 konstansokkal való szorzással a szavak s´ ulyát rendre növelik, ill. csökkentik. A kiegyens´ ulyozott Winnow algoritmusa minden szóhoz két s´ ulyt rendel, amiket a pozit´ıv, ill. negat´ıv példák k¨ ulön szabályoznak. Az utóbbi esetben egy s´ uly értéke negat´ıv is lehet. Az eddig ismertetett neurális hálózat alap´ u módszerek lineáris osztályozók, mivel a hálózat kimenete lineárisan f¨ ugg a bemenett˝ol. Egyszer˝ uség¨ uk ellenére a leghatékonyabbak eljárások közé tartoznak. Több munka megvizsgálta a nemlineáris neurális hálózatok alkalmazását is egy vagy több rejtett réteget illesztve a hálózatba. Ez a módos´ıtás azonban az osztályozó hatékonyságára vonatkozóan semmilyen [153] vagy csak igen csekély [182] javulást eredményez.


188

9.2. a´bra. Optimális w ~ kiválasztása lineárisan szeparábilis esetben Support Vector Machine (SVM) A számos más alkalmazási ter¨ uleten is jó eredményeket adó SVM eljárás egyike a leghatékonyabb szövegosztályozási módszereknek [88]. Csak bináris osztályozási feladat megoldására alkalmas, ezért egyszer˝ u vagy a´ltalános osztályozás esetén ilyenek kombinációit alkalmazzuk. Az SVM egy d~ vektorhoz az alábbi kifejezés alapján rendel 1 vagy −1 értéket : s = wT φ(d) + b =

N X

αi yi K(d, di ) + b

i=1

és a kérdéses kategóriához való hozzárendelést az alábbi egyenl˝otlenség adja meg : ( 1, ha s > s0 y= , −1, egyébként ahol d~i a tanulóhalmaz elemei, yi ∈ {−1,1} értéke pedig a vizsgált kategóriába való tartozást jelöli. A K(d, di ) kernel (mag) kifejezés értékét gyakran egy polinom határozza meg : K(d, di ) = (dT di + 1)d Az SVM tan´ıtása azon w ~ vektor meghatározásából a´ll, amely maximalizálja a tanulóadatok két osztálya (bele, ill. nem bele tartozó) közötti távolságot. Fontos megjegyezni, hogy a legjobb w ~ kiválasztásában csak a tanulóadatok egy része játszik szerepet, az u ´ n. tart´ ovektor ok (support vectors) (ld. 9.2 a´bra). Az optimalizálást attól f¨ ugg˝oen végezz¨ uk, hogy a kategóriához tartozó és nem tartozó vektorok lineáris szeparabilitása az M − 1 dimenziós térben feltételezhet˝o-e vagy sem. Ez utóbbi esetben némileg módos´ıtott eljárást kell alkalmazni [185], ami valamelyest jobb megoldást ad mint a lineárisan szeparálható eset [88]. A módszer jelent˝oségét tovább növeli, hogy nagy adathalmazok esetén is alkalmazható. Ez annak a tulajdonságának köszönhet˝o, hogy a végs˝o SVM-t a tanuló adatok kisebb részhalmazaira megalkotott SVM-ek kombinációiként is el˝o lehet a´ll´ıtani. A [47] közleményben egy olyan tanulóalgoritmust alkalmaztak, amely az SVM módszer tanulási sebességét a Rocchioeljáráséval o¨sszemérhet˝ové teszi. Szavaz´ asos oszt´ alyoz´ as Egy vagy több kiválasztott módszernek más-más tanulóhalmazon elvégzett eredményeit kombinálja a szavazásos osztályozás. Az osztályozó felép´ıtése az alkalmazott módszerek (az osztályozók egy¨ uttesét bizotts´ agnak, elemeit tagok nak nevezik) és azok eredményének s´ ulyozásától f¨ ugg˝oen k¨ ulönböz˝o lehet. A bizottság tagjainak kiválasztásánál a´ltalában azt a szempontot követik, hogy a tagok lehet˝oleg minél f¨ uggetlenebbek legyenek, azaz k¨ ulönböz˝o elven m˝ uködjenek [174]. Az eredmények kombinációjára számos eljárás létezik [109], amelyek eltér˝o mértékben és módon veszik figyelembe a tagok hatékonyságát.


189

Az eredeti tanulóhalmazból kialak´ıtott ideiglenes tanulóhalmazok megvalós´ıtásától f¨ ugg˝oen is több verziója létezik a szavazásos osztályozásnak. Az egyik módszer [26] esetén az eredeti N elem˝ u tanulóhalmazból ismétléses m´ odon véletlenszer˝ uen kiválasztunk N elemet, ´ıgy az u ´ j tanulóhalmaz az eredetib˝ol bizonyos elemeket többször, másokat egyszer sem tartalmaz. Az eredetib˝ol kivett elemek gyakoriságát diszkrét Poisson-eloszlással modellezz¨ uk. Ezt R-szer elvégezve ugyanennyi k¨ ulönböz˝o dokumentumgy˝ ujteményhez jutunk, amire az osztályozó bizottságban résztvev˝o eljárásokat lefuttatva R eredményt kapunk. A vizsgált d~ dokumentumot ahhoz a kategóriához rendelj¨ uk hozzá, amelyikre a legtöbb tag ,,szavaz” : X 1, y(d) = arg max y

r:fr (d)=y

ahol fr (r = 1, . . . , R) a bizottság tagjait jelöli. Az AdaBoost eljárás verziói [149, 150] ugyanazt az osztályozót alkalmazzák egymás után k¨ ulönböz˝o tanulóhalmazzal. Az egyes tanulóadatok s´ ulyát a következ˝o tanulóhalmazban adapt´ıv módon attól f¨ ugg˝oen változtatják, hogy milyen eredményt adott az el˝oz˝o osztályozásoknál. Egy dokumentum s´ ulyát növelik, ha osztályozás sikertelen¨ ul volt, csökkentik, ha sikeres. A végs˝o osztályozó az R-edik osztályozó eredményeként a´ll el˝o. A bizottságokat osztályozók albizottságaiként o¨sszeáll´ıtva [155], illetve a bizottságok döntési fákkal való kombinációját [180] alkalmazva tovább lehet jav´ıtani a boosting t´ıpus´ u módszerek hatékonyságán. Hat´ ekonys´ agm´ er´ es Az osztályozási módszerek hatékonysága a szokásos információ-visszakeresésben alkalmazott mértékek seg´ıtségével mérhet˝o. Az egyszer˝ ubb feladatok (bináris, egyc´ımkés és többc´ımkés osztályozás) esetén ezek a mértékek közvetlen¨ ul alkalmazhatók. Tekints¨ uk el˝oször az alábbi mennyiségeket egy kategóriára vonatkozóan : a, b, c, d,

a a a a

kategóriához kategóriához kategóriához kategóriához

helyesen hozzárendelt dokumentumok száma helytelen¨ ul hozzárendelt dokumentumok száma helytelen¨ ul nem hozzárendelt dokumentumok száma helyesen nem hozzárendelt dokumentumok száma

Ezek seg´ıtségével a következ˝o mértékeket definiáljuk : a a+c a pontoss´ ag (precision) = P = a+b a+d szabatoss´ ag (accuracy) = A = a+b+c+d felidézés (recall) = R =

hiba (error) = E = 1 − A =

(9.5)

b+c a+b+c+d

Ezek köz¨ ul felidézés és pontosság mértékek egy¨ uttesét alkalmazzák leggyakrabban. A szabatosságot szövegosztályozási feladatoknál ritkábban használják, ugyanis a rendszerint nagy nevez˝o miatt ez a mérték kevésbé érzékeny az a + d számláló változására, mint az el˝obbi kett˝o


190

[154, 34. o.][184]. Mivel az R és P értékek maximalizálása egymással ellentétes feladat, ezért egy módszer értékeléséhez mindkett˝ore egyaránt sz¨ ukség van. Ezt az u ´ n. egyens´ ulyi pont meghatározásával érj¨ uk el, amire P ≈ R. Az egyens´ ulyi pontot az adott módszer paramétereinek változtatásával kaphatjuk meg. Itt problémát jelenthet az, hogy egyes módszereknél esetleg nincs ilyen paraméterbeáll´ıtás, illetve hogy a két érték azonossága nem feltétlen¨ ul k´ıvánatos cél [107]. Másik lehet˝oség a két mennyiség parametrikus kombinációja [177], (β 2 + 1)P R F-mérték = Fβ = 2 , β ·P +R

β≥0

(9.6)

ahol a β = 1 esetén a két mennyiség azonos s´ ullyal szerepel. Ez a manapság leggyakrabban használt mérték az osztályozási módszerek kiértékelésére 8 Az eddig tárgyalt mértékek egy kategóriára vonatkoztak, tehát a bináris feladat kiértékelésére alkalmasak. Könnyen lehet o˝ket azonban a´tlagolással adaptálni egy- és többc´ımkés osztályozáshoz is (többszint˝ u osztályozás kiértékelését a 9.2.2 pont megfelel˝o részében tárgyaljuk). Az a´tlagolást kétféleképpen lehet elvégezni : mikr´ o-´ atlagolt mértékek esetén az o¨sszes dokumentumra k¨ ulön kiszámolják az adott értéket, és azokat a´tlagolják ; makr´ oa ´tlagolt esetben pedig kategóriákra számolják a mértékeket, majd ezeket a´tlagolják. Tehát a mikro-átlagolás a dokumentumokhoz, m´ıg a makro-átlagolás a kategóriákhoz rendel azonos s´ ulyt. Ha olyan osztályozó hatékonyságát mérj¨ uk, amelyik a tesztdokumentumokhoz kategóriák megb´ızhatósági szinttel ellátott rangsorát adja eredmény¨ ul, akkor egy másik IR mértéket, a 11 pontos a ´tlagos pontoss´ agot használjuk. Ekkor egy tesztdokumentumra a felidézést a R=

A listában szerepl˝o helyes kategóriák száma Az o¨sszes helyes kategóriák száma

(9.7)

képlettel számoljuk. A ??tm :eq :11pt :r) hányados 11 rögz´ıtett értékére (0, 0,1, . . . , 0,9, 1) meghatározzuk, hogy hány elemét kell a listának figyelembe venni (azaz a számláló mérete mekkora legyen), hogy a k´ıvánt felidézés értéket érj¨ uk el. Evvel az értékkel számoljuk a pontosság értékét : P=

A listában szerepl˝o helyes kategóriák száma . A listában szerepl˝o o¨sszes kategória száma

(9.8)

Vég¨ ul pedig az ´ıgy kapott 11 értéket a´tlagolva megkapjuk a módszert jellemz˝o hatékonyságot egy dokumentumra vonatkozóan. A teljes DTest halmazra vonatkozó globális hatékonyság értéke a fenti módon dokumentumonként kiszámolt értékek a´tlagaként határozható meg. Ki´ ert´ ekel´ es ´ es p´ eld´ ak A módszerek o¨sszehasonl´ıtását standard dokumentumgy˝ ujtemények seg´ıtségével végzik. A módszerek korrekt o¨sszehasonl´ıtásához teljes¨ ulnie kell, hogy I. egyazon gy˝ ujteményen, ugyanazokkal a dokumentumokkal és kategóriákkal tesztelj¨ unk ; II. ugyanazt a tanuló és tesztgy˝ ujteményt használjuk ; 8

Ezt a mértéket haszn´ alt´ ak pl. a 2005-¨ os KDD kup´ ara beadott eredmények értékelésére is: www.acm.org/ sigs/sigkdd/kdd2005/kddcup.html


191

III. ugyanazt a hatékonysági mértéket alkalmazzuk rögz´ıtett paraméter beáll´ıtással. Bár a fenti irányelveket nem tartották mindig szem el˝ott a kutatások elvégzésekor, ennek ellenére a egyszer˝ u szövegosztályozásnál leggyakrabban használt Reuters-21578 9 gy˝ ujtemény, illetve annak k¨ ulönböz˝o verziói a legalkalmasabbak az o¨sszevetés alapjának [154]. Ez a gy˝ ujtemény SGML formátum´ u h´ıranyagokat tartalmaz, amelyek 135 gazdasági jelleg˝ u kategóriába sorol be. A gy˝ ujteménynek többféle tanuló- és tesztadatokra történ˝o felosztása létezik, a legtöbben az Apté a´ltal javasolt felosztást [12] (9603 tanuló, 3299 teszt dokumentum), illetve ennek bizonyos módos´ıtásait, sz˝ uréseit használják. Egyes dokumentumok több, akár 14 kategóriába is tartoznak, mások akár egybe sem. A tanuló dokumentumok eloszlása is egyenetlen, a legnagyobb elemszám´ u kategóriának 2709 tanuló dokumentuma van, de a kategóriák feléhez kevesebb mint 10 dokumentum tartozik. A legátfogóbb o¨sszehasonl´ıtás a [154] cikkben található, ami alapján a következ˝o megállap´ıtásokat tehetj¨ uk : – A legjobb hatékonyság´ u osztályozók a boosting technikát alkalmazó bizottságok, az SVM, valamint a k-NN módszert alkalmazó algoritmusok. – A neurális hálózat alap´ u módszerek szintén jó teljes´ıtményt ny´ ujtanak, bár az el˝oz˝o csoportba sorolt eljárásoknál valamivel rosszabb eredményt adnak. Speciális a´tmeneti f¨ uggvény használatával azonban ez a módszer is az el˝oz˝o csoporthoz hasonló vagy akár jobb eredményeket tud elérni [170]. – A harmadik csoportba a Rocchio-eljárás és a na´ıv Bayes-alap´ u módszerek tartoznak, ezeknek a leggyengébb az osztályozó képesség¨ uk. Itt fontos megeml´ıteni, hogy az el˝obbi a majdnem pozit´ıv tanulóadatok alkalmazásával a ??tm :eq :genro) képletben lényegesen jav´ıtható. Ide sorolhatók még a döntési fa alap´ u módszerek is, amelyek alapesetben szintén a legkevésbé hatékony eljárások közé tartoznak, de módos´ıtásokkal ez lényegesen jav´ıtható [47].

9.2.2. Hierarchikus oszt´ alyoz´ as Egyszer˝ u szövegosztályozás esetén a dokumentumok számának növekedése, és a lefedett témakörök sokfélesége a´tláthatatlan méret˝ u kategóriarendszert eredményezhet. Ezt a problémát a kategóriák hierarchizálásával, azaz taxon´ omi´ a ba rendezésével könnyen a´t lehet hidalni. Ennek bevezetése az osztálystrukt´ ura a´tláthatósága mellett algoritmikusan hatékonyabb eljárások alkalmazását is lehet˝ové teszi. A teljes taxonómián való osztályozási problémát az algoritmusok kisebb osztályozási felada´ tokra bontják, u ´ gy, hogy a taxonómia minden bels˝o csomópontjához rendelnek egyet. Altal´ aban a moh´ o algoritmust vagy annak valamilyen gyeng´ıtett változatát használják. Ez az algoritmus egy adott csomópontban megvizsgálja, hogy az aktuális dokumentum annak melyik gyerekkategóriájába tartozik leginkább, majd e kiválasztott kategóriából kiindulva rekurz´ıvan folytatódik és terminál, ha levélhez ér. A na´ıv Bayes-módszert alkalmazza hierarchikus osztályozásra a [116] munka, ahol a kevés tanulóadattal rendelkez˝o levélkategóriák paramétereit (szóel˝ofordulások aránya) az u ´ n. shrinkage (apadás) statisztikai sim´ıtó eljárás seg´ıtségével határozza meg a sz¨ ul˝o kategóriák megfelel˝o 9

http://www.daviddlewis.com/resources/testcollections/reuters21578/


192

adatait felhasználva. A módszer seg´ıtségével a mohó algoritmus egyik jellegzetes hibája — ti. hogy a taxonómia fels˝o szintjén elkövetett osztályozási hibát már nem lehet korrigálni — nagy részben kik¨ uszöbölhet˝o. A neurális hálózatok architekt´ urájának és a taxonómiáknak strukturális hasonlósága kézenfekv˝ové teszi a neurális hálózatok alkalmazását hierarchikus osztályozás esetén. A HITEC10 [171] osztályozó egy ismeretlen d dokumentum kategorizálásánál a taxonómia gyökeréb˝ol indulva szintenként határozza meg a legvalósz´ın˝ ubb kategóriát, azaz minden szintet a neurális háló egy rétege reprezentál. A végeredményt a levélkategóriák szintjén kapjuk. Az eljárás két paraméter alkalmazásával b˝ov´ıti az egy szinten kiválasztott kategóriák körét, hogy a mohó jelleg˝ u következtetés el˝oz˝o bekezdésben jelzett hibáját kik¨ uszöbölje. Az egyikkel a kiválasztott kategóriák száma adható meg, a másikkal pedig az, hogy a kiválasztott kategóriáknál legjobbtól való mekkora eltérés engedhet˝o meg. Hat´ ekonys´ agm´ er´ es Taxonómiába való osztályozáskor több lehet˝oség van a hatékonyság mérésére a taxonómia kialak´ıtásától f¨ ugg˝oen. Amennyiben a dokumentumok csak levélkategóriákba vannak besorolva, akkor az egyszer˝ u osztályozásnál ismertetett mértékeket lehet alkalmazni a levélkategóriák o¨sszességére (ld. 9.2.1. szakasz). Ez azonban némileg félrevezet˝o eredményt is adhat, hiszen a´ltalában ,,kevésbé rossz” az az osztályozási következtetés, amely egy levélkategória helyett annak testvérét találja meg (tehát a sz¨ uleik közösek), mint az amelyik a kategóriarendszer teljesen más a´gához rendeli a dokumentumot. Ha egy dokumentumot nemcsak a levélkategóriához tartozónak tekint¨ unk, hanem annak o¨sszes sz¨ ul˝ojéhez is hozzárendelj¨ uk 11 , akkor pontosabb képet kaphatunk az osztályozás értékelésekor, feltéve ha a teljes — tehát nem csak levélszint˝ u kategóriákra — taxonómiára számoljuk a pontosság, felidézés, F-mérték értékeit. K¨ ulönösen indokolt ez akkor, ha vannak olyan dokumentumok, amelyek a taxonómia közbens˝o csomópontjaihoz vannak rendelve. Valamelyest leegyszer˝ us´ıtve az algoritmusok a´ltalában a hierarchikus osztályozást a taxonómia csomópontjaira dekomponált egyszer˝ u osztályozási feladatok sorozataként oldják meg. Ezért a taxonómiába egyre lejjebb jutva, az osztályozási hibák o¨sszeadódnak, és egyre kevésbé lesz pontos az eredmény. Ez a tendencia jól megfigyelhet˝o, ha a szokásos mértékeket (pontosság, felidézés, F-mérték) szintenként szám´ıtjuk ki. Hierarchikus osztályozás esetén gyakran találkozunk a többszint˝ u osztályozás problémájával, amikor tehát egy dokumentumnak vannak els˝orend˝ u, másodrend˝ u stb. kategóriái. Itt a 12 kétszint˝ u osztályozás esetével foglalkozunk . A szakirodalom az egyszer˝ u osztályozástól eltér˝o mér˝oszámokat javasol a hatékonyság mérésére erre az esetre, amelyeket célzottan a kés˝obbiekben ismertetésre ker¨ ul˝o szabadalmi teszt-dokumentumgy˝ ujteményhez alak´ıtottak ki (ld. 9.3. a´bra). I. Top : Az osztályozó a´ltal legnagyobb konfidenciaértékkel meghatározott kategóriát hasonl´ıtja a dokumentum els˝odleges kategóriájához. II. Top 3 : Az osztályozó a´ltal javasolt három legnagyobb konfidenciaértékkel b´ıró kategóriát 10

http://categorizer.tmit.bme.hu A kateg´ ori´ ak sorozat´ at ekkor kateg´ oria¨ osvénynek nevezz¨ uk. 12 Természetesen a taxon´ omia szintjeinek sz´ am´ ara nem tesz¨ unk megk¨ otést. 11


193

hasonl´ıtja a dokumentum els˝odleges kategóriájához. Ha a három köz¨ ul valamelyik talál, akkor az osztályozás sikeresnek szám´ıt. III. Any : Az osztályozó a´ltal legnagyobb konfidenciaértékkel meghatározott kategóriát hasonl´ıtja a dokumentumhoz tartozó o¨sszes (els˝odleges, másodlagos) kategóriákkal. Ha valamelyikkel megegyezik, akkor az osztályozás sikeresnek szám´ıt.

9.3. a´bra. Magyarázat a többszint˝ u osztályozásnál alkalmazott mértékekhez (mc – f˝o kategória ; ic – egyéb kategória ; A – osztályozó eredménye ; B – eredeti érték) [53]

Ki´ ert´ ekel´ es ´ es p´ eld´ ak Mivel a hierarchikus osztályozással csak a 90-es évek végét˝ol kezdtek el foglalkozni, ezért sokáig nem volt olyan dokumentumgy˝ ujtemény, amelyen a k¨ ulönböz˝o módszereket o¨ssze lehetett volna hasonl´ıtani. A kutatók ezért a k¨ ulönböz˝o korpuszokon tesztelték algoritmusaikat, pl. Reuters-gy˝ ujtemény kategóriáit13 rendezték k¨ ulönböz˝o taxonómiákba [33, 41, 99, 181] és ezen végezték méréseiket. Ezek az eredmények azonban csak hozzávet˝olegesen hasonl´ıthatóak o¨ssze, hiszen a 9.2.2. pontban ismertetett irányelvek nem teljes¨ ultek, s˝ot még a kategóriák halmaza (taxonómia) is többnyire eltért. A szabadalmi hivatalokban több feladathoz is nagy seg´ıtséget jelenthet a hierarchikus osztályozók alkalmazása. A szabadalmak feldolgozása során a beadványokat emberi munkával elemzik és tovább´ıtják a megfelel˝o szakcsoporthoz, akik a szabadalom szakmai elb´ırálását és besorolását elvégzik. A szakcsoportok meghatározása automatikussá tehet˝o, vagy fel¨ ugyelt félautomatikus módon is végezhet˝o, mivel a osztályozó eljárások pontossága itt elegend˝o. Az osztályozó rendszer további seg´ıtséget adhat a szakért˝oknek is, amennyiben javaslatokat ad a beadványok kategóriájának a meghatározásához. Természetesen más intézmény is hatékonyan alkalmazhatja ezeket a módszereket, hiszen a bejöv˝o dokumentumok rendszerezése a´ltalános feladat akár a´llami, o¨nkormányzati, vagy ipari intézményekben is. Mindazonáltal a szabadalmi hivatalok esetében rendelkezésre a´llnak a sz¨ ukséges el˝ofeltételek : a jól definiált, rögz´ıtett taxonómia és a nagy szám´ u tanulóadat. Ennek az érdekeltségnek is köszönhet˝o, hogy az els˝o, kimondottan hierarchikus osztályozás algoritmusok validálására alkalmasa teszt-dokumentumgy˝ ujteményt a WIPO (World Intellectual Property Organization – Nemzetközi Szellemi Tulajdonok Szervezet) bocsátotta közzé 2002 végén [53], amely angol nyelv˝ u szabadalmi szövegeket tartalmazott, majd nem sokkal kés˝obb német nyelv˝ u gy˝ ujteményt is közzétettek [52]. Az angol gy˝ ujtemény mintegy 75000 XML formát´ u dokumentumból a´ll, amely o¨sszesen 3 GB adat, a német gy˝ ujtemény o¨sszesen 110 ezer XML dokumentumot tartalmaz. A gy˝ ujtemények fel vannak osztva tanuló- és tesztadatokra. A dokumentumok az IPC (Internatial Patent Classification – Nemzetközi Szabadalmi Osztályozás) kategóriarendszerének14 fels˝o négy szintjébe (osztály, szekció, alszekció, f˝ocsoport) vannak besorolva, amely kb. 5000 kategóriát jelent o¨sszesen. Minden dokumentumnak pontosan egy els˝orend˝ u (f˝o) kategóriája és tetsz˝oleges szám´ u, a´tlagosan 4–5 másodrend˝ u kategóriája van. 13 14

Gyakran csak egy kisebb részhalmazt. http://www.wipo.org/classifications/fulltext/new_ipc/index.htm


194

Ezen a gy˝ ujteményen végzett a´tfogó o¨sszehasonl´ıtást a 9.3. a´brán látható mértékekkel egy nemzetközi kutatócsoport [54]. Munkájukban a na´ıv Bayes-eljárás, a legközelebbi szomszédok módszer, az SVM, és a Winnow egy-egy hierarchikus osztályozásra specializált verzióját hasonl´ıtották o¨ssze k¨ ulönböz˝o tanulási halmazok mellett. Az módszerek hatékonyságát szekció és alszekció szintjén vizsgálták, az eredményeket a 9.2. tartalmazza. Ugyanezen a gy˝ ujteményen a neurális hálózat alap´ u HITEC-et is tesztelték, és lényegesen jobb eredményeket kaptak : a taxonómiában egy szinttel lejjebb volt képes a HITEC a többi módszer a´ltal egy szinttel feljebb elért eredményre [172]. Ez alapján megállap´ıtható, hogy a taxonómia topológiáját kihasználó neurális hálózati architekt´ urán m˝ uköd˝o algoritmus kedvez˝obb eredményeket szolgáltat. 9.2. táblázat. A WIPO-alpha angol nyelv˝ u szabadalmi dokumentumgy˝ ujteményen elért eredmények o¨sszehasonl´ıtása a legalacsonyabb konfidenciaszinten (A módszerek nevének rövid´ıtése : NB – Na¨ıve Bayes, SVM, k-NN – legközelebbi szomszédok módszere) Módszer/ forrás HITEC [54]

Mérték

HITEC [54]

Top3 Top3

HITEC [54]

Any Any

Top Top

IPC szint szekció alszekció 66.41 54.63 55.00 41.00 NB, SVM SVM 89.41 79.48 79.00 62.00 NB k-NN 76.46 66.36 63.00 48.00 NB SVM

f˝ocsoport 38.38 – 59.64 – 50.90 –

Másik nagyméret˝ u dokumentumgy˝ ujtemény a Reuters Corpus Volume 1 (RCV1) 15 , amely mintegy 800 ezer h´ıranyagot tartalmaz, és három k¨ ulönböz˝o taxonómiába vannak az XML dokumentumok besorolva (téma szerint, ipari kód szerint, és ter¨ uleti kód szerint). A kategóriák száma azonban itt sokkal kisebb mint a szabadalmi korpuszok esetében, mindössze 103 téma, 364 ipari és 366 ter¨ uleti kód´ u kategóriát tartalmaz. Bár gy˝ ujtemény egyes részeit már többen feldolgozták, teljes kör˝ u vizsgálat kész´ıtése még várat magára.

9.3. Dokumentumok csoportos´ıt´ asa Ahogy azt az adatbányászati rész vonatkozó fejezete is kiemeli (ld. a ??. szakaszt a ??. oldalon), a csoportos´ıt´ as, avagy klaszterezés sokban hasonl´ıt az osztályozáshoz, ugyanakkor két alapvet˝o eltérést mutat, ekkor ugyanis nem ismert I. a dokumentumok c´ımkéje, továbbá a feladat elvégzése után sem jellemezhet˝ok a´ltalában a csoportok automatikusan c´ımkékkel ; II. hogy a dokumentumhalmaz hány csoportot alkot. 15

http://about.reuters.com/researchandstandards/corpus/


195

¨ Osszefoglal´ oan : többnyire nincsen olyan referenciaadat amihez hasonl´ıtani lehetne a csoportos´ıtás eredményét, vagyis tanulási szempontból a klaszterezés fel¨ ugyelet nélk¨ uli tanul´ o m´ odszer. A csoportos´ıtó algoritmusokat ezért akkor alkalmazzuk, amikor nem a´ll rendelkezésre rögz´ıtett kategóriarendszer (taxonómia) a hozzátartozó tanulóadatokkal.

9.3.1. Sz¨ ovegklaszterez´ es jellemz˝ o feladatai ´ es probl´ em´ ai A csoportos´ıtó eljárások tehát hasonló t´ıpus´ u feladatok megoldására alkalmasak mint az osztályozók. Bár a kezdeti motivációt az információ-visszakeres˝o rendszerek hatékonyságának növelése jelentette [177], az utóbbi években inkább az internetes és intranetes keresési feladatok támogatása vált a jellemz˝o céllá. Szövegklaszterez˝o eljárást alkalmaztak dokumentumgy˝ ujtemények böngészésének támogatására [? ], illetve internetes keresések eredményeinek csoportokba szervezésére [? ]. Szintén gyakori probléma dokumentumok hierarchikus klaszterekbe rendezése [99], az internetes dokumentumokhoz automatikus taxonómia generálása 16 , továbbá már meglév˝o taxonómia osztályok dokumentumainak további csoportos´ıtása, amelyet aztán fel lehet használni a taxonómia finom´ıtására. Ha a feladat nem numerikus, hanem szöveges adatok csoportos´ıtása, akkor ebb˝ol adódóan a következ˝o jellegzetességeket kell kezeli [? ] : – Az adatok dimenziószáma legalább 10 000-es nagyságrend˝ u. Mivel a dokumentumokat reprezentáló vektorok viszont rendk´ıv¨ ul ritkák, a módszereknek ezt a dichotómiát tudnia kell kell˝oen kezelni. – A dokumentumgy˝ ujtemények nagy mérete (k¨ ulönösen a világháló esetében) miatt a módszereknek hatékonyan kell m˝ uködnie, és skálázhatónak kell lennie. – A klaszterek neveinek érthet˝onek kell lennie, mivel ezek tájékoztatják a felhasználót (pl. böngészés során) a csoportba tartozó dokumentumok tartalmáról. Szövegklaszterezés a´ltalános feladata ezek alapján nagy méret˝ u dokumentumhalmaz elemeit csoportokba rendezni u ´ gy, hogy azonos csoportba ker¨ uljenek a hasonló témával foglalkozó dokumentumok.

9.3.2. Reprezent´ aci´ o A dokumentumok reprezentálására a szokásos vektortér-modellt alkalmazzuk (9.1. szakasz). A dokumentumokat a´ltalában szavak szintjén dolgozzuk fel, a szótárba pedig a nemtriviális szavak kanonikus alakjai ker¨ ulnek. A szövegklaszterez˝o módszerek a dokumentumok tartalmi hasonlóságát a benn¨ uk szerepl˝o szavak egy¨ uttes el˝ofordulásai alapján határozzák meg. A vektortér-modellben ez a feladat a dokumentumvektorok távolságának hasonlósági mértékek seg´ıtségével való meghatározását jelenti. Mivel dokumentumvektorokban tárolt értékek folytonosak, ezért a ??. pontban ismertetett mértékek alkalmasak a hasonlóság, ill. k¨ ulönböz˝oség vizsgálatára — szövegklaszterezés esetén az euklideszi- (ld. (??)) más néven koszinusztávolságot használjuk leggyakrabban. 16

A www.yahoo.com-hoz hasonl´ o k¨ onyvt´ ar-strukt´ ura automatikus felép´ıtése.


196

9.3.3. Hat´ ekonys´ ag m´ er´ ese A csoportos´ıtás min˝oségének vizsgálatát két t´ıpus´ u mértékkel lehet vizsgálni. Az els˝o t´ıpusba az u ´ n. bels˝ o mértékek tartoznak, amelyek nem használnak fel k¨ uls˝o tudást a csoportos´ıtás jóságának meghatározására. A második t´ıpusba a k¨ uls˝ o mértékek tartoznak, amelyeket akkor lehet alkalmazni, ha rendelkezésre a´llnak a dokumentumok osztályc´ımkéi, ekkor ezeket hasonl´ıtjuk o¨ssze a c´ımkéket a klaszterez˝o a´ltal meghatározott csoportokkal. A bels˝o mértékek például a csoportok bel¨ uli k¨ ozelség és a csoportok k¨ ozti t´ avols´ ag mértékek k¨ ulönböz˝o t´ıpusai, amelyeket a ??. pont ismertet. K¨ uls˝o mértékek köz¨ ul az entr´ opi´ a t és az F-mérték csoportos´ıtásnál alkalmazott verzióját tárgyaljuk, amelyeket a 9.3.4. szakaszban a módszerek kiértékelésénél használunk. Az entrópia [? ] mértéknél el˝oször az osztályok adatelosztási értékét számoljuk ki, azaz minden j csoportra meghatározzuk annak a pij valósz´ın˝ uségét, hogy e csoport eleme az i osztályba tartozik. A pij érték seg´ıtségével a j klaszter entrópiáját a Ej = −

C X

pij log(pij )

(9.9)

i

kifejezés adja meg, ahol ci i ∈ [1, C] jelöli a kategóriákat. Vég¨ ul a csoportos´ıtás entrópiáját a ??tm :eq :entropy) értékek csoportméret szerint s´ ulyozott a´tlagaként kapjuk meg : E=−

K X nj E j j=1

N

,

(9.10)

ahol K a csoportok száma, nj a j-edik csoport elemszáma, N pedig a dokumentumok száma. Egy módszer annál jobb minél kisebb az entrópiája. Az F-mértéket csoportos´ıtásnál az alábbi módon számoljuk [? ]. Legyen adott a j csoport, és az i osztály. Ekkor a j csoporthoz tartozó felidézés és pontosság a R(i, j) = nij /ni

P (i, j) = nij /nj

(9.11)

képletekkel számolható, ahol nij az j csoportban lév˝o i osztálybeli elemek száma. A j csoportra vonatkozó F-mértéket a két mennyiség (9.6) kifejezés szerinti kombinációjaként kapjuk : F1 (i, j) = (2R(i, j)P (i, j)) / (R(i, j) + P (i, j)), az o¨sszes´ıtett F-mérték pedig s´ ulyozott a´tlagként a´ll el˝o : C X nj max (F1 (i, j)) . (9.12) F1 = N j∈[1,K] i

9.3.4. Sz¨ ovegklaszterez˝ o elj´ ar´ asok Ebben a szakaszban a szöveges adatok csoportos´ıtása alkalmazott hierarchikus és particionáló eljárásokat tekintj¨ uk a´t.17 A módszerek o¨sszehasonl´ıtásánál kör¨ ultekint˝oen kell eljárni, és csak akkor lehet valamely eljárást egy másiknál jobbnak tekinteni, ha k¨ ulönböz˝o mértékek és korpuszok esetén a legtöbb esetben jobb eredményt ad. 17

Természetesen ezen k´ıv¨ ul még sok m´ as elj´ ar´ as is ismert, t¨ obbek k¨ ozt val´ osz´ın˝ uségi és fuzzy alap´ u m´ odszerek, de ezek ismertetése meghaladj´ ak e k¨ onyv kereteit.


197

Hierarchikus klaszterez˝ ok A [? ] tanulmányban három egyes´ıt˝ o hierarchikus klaszterez˝ o t hasonl´ıtanak o¨ssze nyolc k¨ ulönböz˝o korpuszokon (ld. 9.3.5. pontot is) ; a módszerek csak az egyes´ıtend˝o párok kiválasztásában k¨ ulönböznek. A vizsgált eljárások a centroid kapcsol´ od´ as, centroid–egyszer˝ u P ~

~

cos(d~1 ,d~2 )

kapcsol´ od´ as,18 és az UPMGA módszer [? ]. Ez utóbbi a s(x, y) = d1 ∈x,dn2 ∈y hasonlósági x ,ny mértéket alkalmazza. A módszerek köz¨ ul az UPGMA adja a legjobb eredményt az F-mérték szerint az o¨sszes vizsgált gy˝ ujtemény esetén, bár a másik két módszer sem ad lényegesen rosszabb értékeket. Entrópia mérték szerint a UPGMA és a centriod-egyszer˝ u (CE) kapcsolódás közel azonos eredményeket ad, m´ıg a centroid kapcsolódás a másik kett˝onél lényegesen rosszabb. Megfigyelhet˝o, hogy a kezdeti fázisban még hasonló eredményeket ad mindhárom módszer, de kés˝obb a CE kezd több hibát véteni [? ]. Ebb˝ol megállap´ıtható, hogy a vizsgált eljárások köz¨ ul az UPGMA b´ır a legkedvez˝obb tulajdonságokkal. K-´ atlag klaszterez˝ ok A particionáló algoritmusok egyik fajtája a k-átlag t´ıpus´ u klaszterez˝o (ld. ??. pont). El˝oször ennek egy szövegcsoportos´ıtásra hatékonyan alkalmazható módos´ıtását, a kettészel˝ o k-´ atlag (bisecting k-means) eljárást ismertetj¨ uk, majd o¨sszehasonl´ıtjuk az eredeti k-átlag eljárással. Az algoritmus a teljes dokumentumhalmazból indul ki, és a következ˝o lépésekb˝ol a´ll : I. Válasszunk ki egy felosztandó klasztert. II. Osszuk pontosan két részre a k-átlag eljárás seg´ıtségével (kettészel˝o lépés). III. Végezz¨ uk el a 2. lépést i-szer19 , és válasszuk ki azt a vágást, amelyik a legnagyobb csoporton bel¨ uli közelséget adja. IV. Ismételj¨ uk meg a fenti 3 lépést, ameddig a sz¨ ukséges csoportszámot nem érj¨ uk el. Az els˝o lépésben több módon választhatjuk ki a felosztandó klasztert ; ez lehet pl. legnagyobb méret˝ u csoport, vagy a legkisebb csoporton bel¨ uli közelséggel b´ıró csoport. A kettészel˝o k-átlag módszer el˝onye, hogy mind hierarchikus mind elk¨ ulön¨ ul˝o csoportokat lehet vele generálni, tehát szigor´ uan véve az eljárás feloszt´ o hierarchikus klaszterez˝ o nek te20 kinthet˝o. A módszernél lehet˝oség van a csoportok finom´ıtására is , ha az eredmény¨ ul kapott klaszterekb˝ol kiindulva a k-átlag eljárást lefuttatjuk. Az eljárás id˝oigénye — finom´ıtással is — lineáris a dokumentumok számának f¨ uggvényében. A módszert a [? ] közleményben o¨sszehasonl´ıtották az eredeti k-átlag eljárással és a UPGMA egyes´ıt˝o hierarchikus klaszterez˝ovel F-mérték és entrópia t¨ ukrében, amely alapján az alábbiak a´llap´ıthatók meg : – A kettészel˝o k-átlag módszer mind a k-átlag, mind az UPGMA módszernél jobb a vizsgált 8 korpusz legtöbbjén (mindkét mérték szerint). 18

El˝ osz¨ or minden csoportra kisz´ amolj´ ak a csoporton bel¨ uli hasonl´ os´ agot, majd azt a két csoportot vonj´ ak o ¨ssze, ahol a s(z) − (s(x) + s(y)) érték a legkisebb. Itt x és y o ¨sszevon´ as´ ab´ ol keletkezik z csoport. 19 K¨ ul¨ onb¨ oz˝ o centroidokb´ ol kiindulva, mindig m´ as és m´ as lesz a két csoport. 20 Nem csak ebben az esetben, hanem az o ¨sszes hierarchikus klaszterez˝ onél, pl. UPGMA.


198

– Az UPGMA eredményeinek k-átlag módszerrel történ˝o finom´ıtása lényegesen jav´ıt mindkét mérték szerint az eredményeken. – Az eredeti k-átlag módszer jobb eredményeket ad, mint a alap és a finom´ıtott UPGMA eljárás. – Noha a két k-átlag alap´ u eljárás eredményei több futás a´tlagaként a´lltak el˝o, ezeknek a többszörös futási ideje sem éri el az egyes´ıt˝o hierarchikus UPGMA futási idejét, mivel egy futáson a k¨ ulönbség mintegy 80–100-szoros. Az egyes´ıt˝o hierarchikus algoritmusok szövegklaszterezésen való gyenge teljes´ıtményére a magyarázat a dokumentumok jellegzetességében rejlik. Az osztályozott szövegek alapján minden osztályhoz rendelhet˝o egy szótár, amely a tipikus szavakat tartalmazza. Ugyanakkor valamely osztályba es˝o dokumentum nemcsak osztályának szótárából tartalmaz szavakat, ráadásul ezek az osztályszótárak a többértelm˝ u szavak, vagy tematikusan közeli kategóriák esetén a´t is fedhetnek. Egy szavak dokumentumonkénti eloszlásának jellege miatt, gyakran el˝ofordul, hogy egy dokumentum legközelebbi szomszédja másik kategóriába tartozik. Az ilyen legközelebbi szomszédok aránya a vizsgált korpuszok esetében a 5 és 30% között volt ! Minél távolabbi szomszédokat tekint¨ unk, ez az arány természetesen annál nagyobb lesz. Az egyes´ıt˝o hierarchikus algoritmusok m˝ uködésének jelegéb˝ol adódóan, a módszer során elkövetett hiba nem korrigálható kés˝obb. A k-átlag módszerrel történ˝o finom´ıtás ezért jav´ıtja lényegesen az eredményeket, mert ott lehet˝oség van dokumentumok csoportok közti mozgatására is. A k-átlag módszerek ezen tulajdonságuknál fogva nem érzékenyek a hamis közeli szomszédok jelenségére, és ezért jobb eredményt szolgáltatnak dokumentumokra. A kettészel˝o k-átlag módszer hatékony m˝ uködésének az az oka, hogy ha az 1. lépésben mindig a legnagyobb elemszám´ u csoportot választjuk felosztásra, akkor a keletkez˝o csoportok mérete hasonló lesz. Mivel jellemz˝oen a kis csoportok jobb min˝oség˝ uek, viszont a kiértékel˝o f¨ uggvényekben a nagyobb méret˝ u csoportokat min˝osége nagyobb s´ ullyal szerepel, ezért a ka´tlag módszer — amely nagyon k¨ ulönböz˝o méret˝ u csoportokat gyárt — a´ltalában rosszabb eredményt ad.

9.3.5. Dokumentumgy˝ ujtem´ enyek A 9.3. táblázatban klaszterezési algoritmusok elemzésére használt dokumentumgy˝ ujtemények találhatók. A re0 és re1 korpuszok a már ismertetett Reuters-adatok részhalmazaként a´llt el˝o (ld. 191. oldal). A tr31 és tr45 a TREC gy˝ ujteményben 21 találhatóak , a kategóriák c´ımkéi pedig az ugyanott megadott fontossági értékek alapján adhatók meg22 . Szintén TREC gy˝ ujtemény az fbis, illetve az la1 és la2, amelyek rendre a Foreign Broadcast Information Service és a Los Angeles Times kollekciók adatait tartalmazza. Ez utóbbi esetben az osztályc´ımkéket a cikkek rovatai alapján határozták meg. Vég¨ ul a wap gy˝ ujtemény a WebACE projekt [? ] keretében a Yahoo ! taxonómiából o¨sszegy˝ ujtött felc´ımkézett dokumentumokat tartalmaz. 21 22

TREC: Text REtrieval Conference. http://trec.nist.gov Részleteket ld. [? ]; forr´ as http://trec.nist.gov/data/qrels_eng/index.html


199

Szintén több kutató használta a Classic3 tesztkorpuszt, amely 1400 rep¨ ulés¨ ugyi rendszereket (CRANFIELD) tárgyaló, 1033 orvosi témáj´ u (MEDLINE), és 1460 információvisszakereséssel foglalkozó (CISI) dokumentumot tartalmaz 23 . 9.3. táblázat. Klaszterez˝o eljárások elemzésére használt dokumentumgy˝ ujtemények adatai (a jelölések feloldását ld. a szövegben) [? ] Név

Forrás

re0 re1 wap tr31 tr45 fbis la1 la2

Reuters-21578 Reuters-21578 WebAce TREC TREC TREC TREC TREC

Dokumen- Katetumok góriák száma száma 1504 13 1657 25 1560 20 927 7 690 10 2463 17 3204 6 3075 6

´ Min Max Atlagos osztály- osztály- osztályméret méret méret 11 608 115.7 10 371 66.3 5 341 78.0 2 352 132.4 14 160 69.0 38 506 144.9 273 943 534.0 248 905 512.5

Szótár mérete 11465 3758 8460 10128 8261 2000 31472 31472

9.4. Kivonatol´ as Internetes keresés esetén szinte mindenki találkozott már azzal a problémával, hogy a keres˝omotorok a´ltal talált honlapok legalább egy része nem felel meg a felhasználó információigényének. A felhasználó részér˝ol a keres˝oszolgáltatás a´ltal adott rövid c´ım és pár soros le´ırás alapján annak eldöntése, hogy egy adott dokumentum releváns-e számára szintén nem egyszer˝ u feladat. Ehhez olykor a teljes dokumentumot le kell tölteni és a´t kell futni, azaz id˝oigényes munkát jelent. A keres˝oszolgáltatások és/vagy a tartalomszolgáltatók (honlap/dokumentum kész´ıt˝oi) részér˝ol szintén nem várható el, hogy automatizálás nélk¨ ul emberi és anyagi er˝oforrásokat a´ll´ıtson a cél érdekébe. Ebben a szakaszban olyan szövegbányászati módszereket vizsgálunk, amelyek ezt a feladatot, tehát a dokumentumok o¨sszegzését automatikusan elvégzik. Ezeket a módszereket o¨sszefoglalóan o ¨sszegzéskész´ıt˝ o elj´ ar´ asok nak nevezz¨ uk.

9.4.1. Az o ¨sszegz´ esk´ esz´ıt˝ o elj´ ar´ asok feloszt´ asa Ezeket a módszereket o¨sszefoglalóan o ¨sszegzéskész´ıt˝ o elj´ ar´ asok nak nevezz¨ uk, amelyeket a szakirodalom az o¨sszegzés el˝oa´ll´ıtása alapján két alapvet˝oen k¨ ulönböz˝o csoportba oszt : kivonatol´ asnak (extraction) h´ıvjuk az olyan eljárást, amelynek eredménye kizárólag az eredeti szövegb˝ol vett részeket tartalmaz, m´ıg ezzel szemben az o ¨sszefoglal´ as-kész´ıt˝ o (abstraction) módszerek a´ltal el˝oa´ll´ıtott szöveg, olyan elemeket is tartalmaz, ami nem része a feldolgozott dokumentumnak. 23

ftp://ftp.cs.cornell.edu/pub/smart


200

Az emberi gondolkodás és információfeldolgozás modellezése — ´ıgy az o¨sszegfoglaláskész´ıtésé is — bonyolult feladat. Az o¨sszefoglalás f¨ ugg a kész´ıt˝o személyét˝ol, szaktudásától, k¨ ulönbözhet méretben, nyelvezetben, st´ılusban és részletezettségben. Az o¨sszegfoglalás-kész´ıtés folyamatának matematikai vagy logikai formulákkal való le´ırása rendk´ıv¨ ul komplex feladat [? ]. Az utóbbi években a nyelvtechnológiai eszközök fejl˝odése azonban lehet˝oséget adott olyan rendszerek megalkotására amelyek képesek szövegek szemantikai feldolgozására is. Ilyen eszközök seg´ıtségével, a szövegben található frázisok és lexikai láncok meghatározásával, majd azok o¨sszef˝ uzésével, lehet˝oség van o ¨sszegfoglal´ asok automatikus gener´ al´ as´ ara. Ennél lényegesebben egyszer˝ ubb a kivonatoló eljárások m˝ uködése, ahol az eredeti szövegben meglév˝o, azt leginkább jellemz˝o szövegegységek (mondatok, bekezdések, stb.) kiválasztása a cél. A kivonatoló eljárások hátránya : – Az ily módon kiválasztott mondatok jellemz˝oen az a´tlagosnál hosszabbak (ld. 9.4.3. pont). Mivel az ilyen mondatoknak egyes részei gyakran nem tartalmaznak lényegi információt, az feleslegesen ker¨ ul be a kivonatba. – A dokumentumokban lév˝o fontos információegységek a´ltalában az egész dokumentumban elszórtan vannak jelen, és ezt a kivonatoló módszerek nem képesek feldolgozni. – A szövegben szerepl˝o ellentmondó információkat a kivonat nem dolgozza fel megfelel˝oen. Az o¨sszefoglaló eljárások hátránya : – A felhasználók jobban kedvelik a kivonatolással kész¨ ult o¨sszegzést, mint a generált o¨sszefoglalókat [? ]. Ennek oka, hogy a kivonat a szerz˝o eredeti kifejezéseit, szóhasználatát tartalmazza, valamint esetlegesen lehet˝oséget ny´ ujt a sorok közötti információk olvasására is. – A mondatszintézis ter¨ ulete jelenleg még angol nyelvre is gyerekcip˝oben jár, ezért az automatikusan generált szövegekben gyakran még mondaton bel¨ ul is ellentmondás, van, ´ıgy az egész szöveg könnyen o¨sszef¨ uggéstelenné válik. Kivonat esetén inkoherencia csak a mondatok határainál fordul el˝o. Mivel a legtöbb m˝ uköd˝o alkalmazás a kivonatolás módszerét alkalmazza, ezért a továbbiakban erre fókuszálunk. A felhasználási cél alapján az o¨sszegzéskész´ıt˝o eljárásokat az alábbi szempontok szerint lehet rendszerezni [? ]. – Részletezettség : indikat´ıv vagy informat´ıv. Az indikat´ıv o¨sszegzés azt tartalmazza, hogy a szövegnek mi a témája, m´ıg az informat´ıv o¨sszegzés ugyanannak egy speciális részletét tárgyalja. – Tartalom : a ´ltal´ anos vagy kérdés-vezérelt. Az o¨sszegzés lehet egy dokumentum tartalmának a´ltalános le´ırása, vagy kiemelheti a tartalomnak a felhasználó a´ltal megadott kérdéssel kapcsolatos részét. – Megközel´ıtés : téma, ill. t´ıpus specifikus vagy f¨ uggetlen. A tapasztalatok azt mutatják, hogy k¨ ulönböz˝o t´ıpus´ u (pl. rövidh´ır, tudományos publikáció) dokumentumokban a lényegi információ más helyen található.


201

9.4.2. A kivonatol´ as hat´ ekonys´ ag´ anak m´ er´ ese Els˝oként megvizsgáljuk, hogy milyen módszereket és mértékeket alkalmaznak a kivonatolás eredményének kiértékelésére, hogy ezáltal könnyebben érthet˝o legyen, melyek az egyes módszerek el˝onyei és hátrányai. Egy o¨sszegzés meg´ıtélése személyenként változó lehet, f¨ uggetlen¨ ul attól, hogy automatikus vagy ember a´ltal kész´ıtett anyagról van szó. A kivonatoló technikák kiértékelésére az 1960-es években Edmundson a´ltal javasolt mértéket [? ] használják még ma is a leggyakrabban. Az automatikusan generált kivonatokat szakért˝ok a´ltal mondatkiválasztással elkész´ıtett kivonatokkal vetik o¨ssze meghatározva a megegyez˝o mondatok számát. Ezután a szokásos IR mértékekkel — pontosság, felidézés — jellemzik a kivonatolás min˝oségét. Ennek a módszernek a hátránya, hogy sz¨ ukséges hozzá emberi el˝ofeldolgozás, ugyanakkor ebben rejlik az er˝ossége is, hiszen ha egy módszer ezen mérték alapján valamely tanulóadat-halmazon jól teljes´ıt, akkor várhatóan ismeretlen szövegeken is jól m˝ uködik, a felhasználó számára jól érthet˝o, hasznos kivonatokat generál. A szakirodalom a fentieken k´ıv¨ ul még az alábbi szempontokat tekinti iránymutatónak egy kivonat hasznosságának és teljességének meg´ıtélésében [? ? ] : I. Meg tudja-e válaszolni a felhasználó mindazokat a kérdéseket a kivonat elolvasása után, amelyekre az egész szöveg elolvasása esetén képes lenne ? II. Mi a tömör´ıtési aránya a kivonatnak az eredeti szöveghez képest ? III. Van-e a kivonatolt szövegben ismétl˝odés, redundancia ? Ugyanakkor a kivonatok egyéb jellemz˝oit, pl. intelligencia, kohézió, o¨sszef¨ uggés, olvashatóság sokkal nehezebb értékelni. A kivonatolás min˝oségére vonatkozóan megk¨ ulönböztetnek bels˝o és k¨ uls˝o mértékeket [? ], aszerint, hogy csak a kivonat tulajdonságait veszi-e figyelembe az adott mérték, vagy a kivonat min˝oségét valamely más cél elvégzésében ny´ ujtott támogatás hatékonyságának t¨ ukrében vizsgálják. A felsorolt mértékek köz¨ ul a második az el˝obbi, m´ıg az els˝o az utóbbi kategóriába tartozik. Kizárólag a tömör´ıtési arány nem megfelel˝o jellemz˝oje a kivonat min˝oségének, hiszen pl. a redundanciát, vagy az információ hasznosságát nem veszi figyelembe.

9.4.3. Mondatkiv´ alaszt´ asn´ al haszn´ alt jellemz˝ ok A mondatkiválasztással m˝ uköd˝o kivonatoló technikák u ´ gy m˝ uködnek, hogy a dokumentum minden egyes mondatához hozzárendelnek egy heurisztikus módon meghatározott értéket, és a legmagasabb pontszámmal rendelkez˝o mondatokat teszik bele a kivonatba. A mondatokhoz rendelt értéket az alábbi tényez˝ok növelik : – Kulcssz´ o-el˝ ofordul´ as : Azok a mondatok, amelyekben a szöveg leggyakoribb szavai szerepelnek, a´ltalában jól reprezentálják a dokumentumot. – C´ım-kulcssz´ o : A c´ımben szerepl˝o szavak a´ltalában utalnak a dokumentum tartalmára is, ezért az olyan szövegközi mondatok amelyekben c´ımszavak szerepelnek a´ltalában az a´tlagosnál jobban jellemeznek egy dokumentumot.


202

´ agh´ırek esetén többnyire az els˝o mondat, technikai– – El˝ ofordul´ asi hely heurisztika : Ujs´ tudományos szövegeknél az o¨sszefoglalás utolsó mondatai, illetve a konkl´ uzió tartalma jól jellemzi az adott dokumentumot. – Utal´ o fr´ azisok : Az olyan kulcsszavakat tartalmazó mondatok, mint pl. ez a cikk”, ” a tanulmány”, jelen munkánkban” az a´tlagosnál több információt hordoznak a szöveg ” ” egészér˝ol. – Nagybet˝ us szavak : Rövid´ıtéseket, vagy tulajdonneveket tartalmazó mondatok a´ltalában nagyobb információ tartalommal b´ırnak. A mondatokhoz rendelt értéket az alábbi tényez˝ok csökkentik : – R¨ ovid mondatok kisz˝ ur´ ese : A kivonatban jellemz˝oen nincsenek rövid, néhány szavas mondatok. – N´ evm´ asok : Személyes, vonatkozó, birtokos, stb. névmásokat tartalmazó mondatok csak akkor ker¨ ulnek be a kivonatba, ha meghatározható, hogy mire utalnak. Ekkor az utalt szó ker¨ ul a kivonatba ker¨ ul˝o mondatban a névmás helyére. – Inform´ alis ´ es pontatlan szavak : A gyakori és sok jelentéssel b´ıró, vagy pontatlan szavak negat´ıv tényez˝ok a mondat kiválasztásnál. – Id´ ez´ esre utal´ o szavak : Angol nyelv˝ u h´ıreknél jellemz˝o idézésre utaló szavak szintén negat´ıv faktorok : adding, said, according, stb. – Redundancia-cs¨ okkent´ es : Ezt a pontszámot olyan eljárásokban alkalmazzák, ahol egyenként határozzák meg a kivonatba ker¨ ul˝o mondatokat. Az értéket minden u ´ j mondat kiválasztásánál u ´ jraszámolják, megel˝ozend˝o azt, hogy a kiválasztott mondat valamelyik már korábban a kivonatba ker¨ ult mondathoz hasonl´ıtson, pl. u ´ gy, hogy arányosan csökkentik a még nem beválasztott mondatok pontszámát aszerint, hogy mennyire hasonl´ıtanak az aktuális kivonathoz [? ? ]. Az alkalmazott jellemz˝ok jellege szerint megk¨ ulönböztethet¨ unk nyelvi, statisztikai, ill. információelméleti, és vég¨ ul kombinált módszereket.

9.5. A legfontosabb kivonatol´ o elj´ ar´ asok 9.5.1. A klasszikus m´ odszer Bár az automatikus o¨sszegzés kész´ıt˝o eljárások csak az Internet és a keres˝omotorok széleskör˝ u elterjedésével ker¨ ultek a kutatások homlokterébe, az els˝o eredmények e témában már az 60-es évek elején megsz¨ ulettek [? ]. Edmundson korai munkájában o¨sszefoglalta az akkor ismeretes eljárásokat, és lerakta a kivonatolási technikáknak mind a mai napig érvényben lév˝o alapjait [? ]. Módszere az alábbi lépésekb˝ol a´ll : I. Emberek a´ltal kész´ıtett kivonatok tanulmányozásának seg´ıtségével határozzuk meg azokat az automatikusan generált kivonatok esetén elvárt jellemz˝oket.


203

II. Kész´ıts¨ unk ennek megfelel˝o kivonatokat emberi munkával. III. Tervezz¨ unk olyan matematikai és logikai formulákat a mondatok pontozására és rangsorolására, hogy a k´ıvánt (manuálisan gyártott) eredmény kapjuk. IV. A pontozási-kiválasztási rendszert finom´ıtása mellett addig ismételj¨ uk a módszert, am´ıg a manuálisan és automatikusan generált kivonatok nem lesznek azonosak. Edmundson rendszere az alábbi jellemz˝oket vette figyelembe a pontozási-kiválasztási rendszer paraméterezése során. Az u ´ n. funkció szavak kisz˝ urése és szótöves´ıtés (ld. még 9.7. szakasz) elvégzése után az következ˝o tényez˝oket vizsgálta : – Utaló szavak és frázisok ; – Gyakori és egyben informat´ıv szavak (kulcsszavak). – C´ım-kulcsszavak. – El˝ofordulási hely heurisztika. Ezek után minden i mondatra meghatározta az alábbi Si kifejezés értékét : S i = w 1 · C i + w 2 · Ki + w 3 · Ti + w 4 · L i

(9.13)

ahol Ci , Ki , Ti , és Li rendre a mondatban szerepl˝o utaló frázisok, kulcsszavak, c´ımszavak száma, illetve az el˝ofordulási heurisztika a´ltal meghatározott érték. A w i (i = 1, . . . ,4) egy¨ utthatók az egyes tényez˝okhöz rendelt fontossági vagy s´ ulyfaktor. Az ilyen módon megállap´ıtott Si értékek alapján vagy a k legmagasabb értékkel rendelkez˝o, vagy egy meghatározott k¨ uszöbértéknél nagyobb pontszámmal b´ıró mondatokból alkotjuk a kivonatot. A módszer id˝otállóságát mutatja, hogy még manapság is vannak ilyen alapon m˝ uköd˝o kivonatolók [? ]. Egyetlen komoly hiányossága, hogy nem veszi figyelembe a kiválasztott mondatok hasonlóságát, és nem alkalmaz redundancia-csökkent˝o módszereket.

9.5.2. TF-IDF alap´ u m´ odszer A TD-IDF módszer gyakorlatilag az IR paradigma alkalmazása kivonatolási célra [? ]. A módszer els˝osorban kérdés-vezérelt kivonat el˝oa´ll´ıtására alkalmas, de megfelel˝o módos´ıtással a´ltalános kivonat létrehozására is alkalmassá tehet˝o. A dokumentum szavaiból mondat szinten kész´ıtett kumulált halmaz (´ un. zsák) alapján a 24 szokásos TF-IDF modell seg´ıtségével a mondatokhoz frekvencia vektorokat rendel¨ unk. Ezeket azután a kérdés szavaiból képzett vektorral valamilyen hasonlósági mértéket (pl. koszinusz távolság) alkalmazva o¨sszehasonl´ıtjuk, és a leginkább hasonló mondatokat kiválasztjuk. ´ Altal´ anos o¨sszegzés létrehozásához a dokumentum leggyakoribb (informat´ıv) kulcsszavaiból képezz¨ uk a keres˝o vektor szavait. Mivel elvileg ezek reprezentálják leginkább a dokumentum témáját, a hasonló mondatokból o¨sszeáll´ıtott kivonat a szöveg a´ltalános o¨sszegzésének tekinthet˝o. 24

Itt a dokumentum szint helyett — ld. (9.3) kifejezés — a mondat szinten van megval´ os´ıtva


204

Ennek az eljárásnak több gyenge pontja is van. Egyrészt a felhasználói szokások alapján megadott kérdés is legtöbbször a´ltalános kivonatot eredményezhet, hiszen ha olyan tematikus szavakkal keres¨ unk egy szövegben mint pl. ,,information retrieval”, ami a szöveg tágabb témája, akkor nem jutunk specifikus információhoz. Másrészt, mivel a módszer csak olyan mondatokat választ ki, amelyekben a keres˝o szavak szerepelnek, biztosan kimarad néhány nagyon fontos és informat´ıv mondat a kivonatból, ami pl. már az adott dokumentum témáját részletesebben ismerteti. Ugyancsak emiatt a kivonat rendk´ıv¨ ul redundáns lesz.

9.5.3. Csoportos´ıt´ as alap´ u m´ odszerek A jól meg´ırt dokumentumokra a´ltalában igaz az a szerkesztési elv, hogy egy tágabb ter¨ ulethez tartozó témákat tárgyalnak egymás után. Ez alapján (ténylegesen vagy implicite) szakaszokra bonthatók szét. A dokumentum tematikus szerkezetét a kivonatnak is t¨ ukröznie kell, hiszen az o¨sszefoglalásban szerepelnie kell a szövegben tárgyalt témáknak. Ezt a szerkesztési elvet egyes kivonatolók csoportos´ıtó (klaszterez˝o) eljárások alkalmazásával valós´ıtják meg. Itt jegyezz¨ uk meg, hogy e módszerrel nem csak egyes dokumentumok, hanem dokumentumgy˝ ujtemények kivonatolása is elvégezhet˝o. Az MMR m´ odszer Az MMR (Maximum Marginal Relevance — maximális széls˝o relevancia) módszer [? ? ] mind statisztikai, mind nyelvi jellemz˝oket felhasznál a mondatok kiválasztása során, vagyis egyaránt figyelembe tudja venni a kulcs- és c´ımszavak el˝ofordulását, id˝orendi sorrendet, kérdéshez/ter¨ ulethez való hasonlóságot (tehát a´ltalános és kérdés-vezérelt kivonatot is képes el˝oa´ll´ıtani), redundancia-csökkentést, és névmások el˝ofordulásának b¨ untetését. A mondatokat az alábbi formula szerint pontozza : X X M M R(mondati ) = λ ws (Qs · Si ) + (1 − λ) wl (Ll · Si ), (9.14) s∈S

l∈L

ahol S a statisztikai, L a nyelvi jellemz˝ok halmaza, Q a kérdés, w pedig az egyes jellemz˝okhöz tartozó s´ ulyok. A s´ ulyok a´ll´ıtásával lehet szabályozni az el˝oa´ll´ıtandó kivonat t´ıpusát. Az MMR módszer a kivonatot inkrementálisan a´ll´ıtja o¨ssze, mindig azt a mondatot választva ki, amely leginkább hasonl´ıt a kérdéshez vagy a dokumentum témájához 25 , és leginkább k¨ ulönbözik a már kiválasztott mondatoktól26 . Ez a módszer lehet˝ové teszi azt is, hogy tetsz˝oleges méret˝ u kivonatot generáljunk, hiszen a kivonat b˝ov´ıtése bármikor befejezhet˝o. A módszer a feldolgozás elején csoportos´ıtja a dokumentum (vagy dokumentumgy˝ ujtemény) mondatait valamilyen hasonlósági mérték alapján. A kivonatoló minden csoportból a csoport központjához legközelebbi mondatot, mint a csoporthoz tartozó mondatok témáját leginkább reprezentálót választja ki a kezdeti fázisban. Ezek a mondatok a´ltalában a csoportban lév˝ok köz¨ ul a leghosszabbak. A mondatok klaszterezése ??. fejezetben ismertetett módszerek seg´ıtségével könnyen elvégezhet˝o. A módszernek fontos paramétere a kiinduláskor meghatározott hasonlósági k¨ uszöbérték, θ. Az algoritmus sémája a következ˝o : kezdetben minden mondat magában o¨nálló csoportot alkot. 25 26

A ??eq:MMR)-ben az o ¨sszeg els˝ o tagja. A képlet m´ asodik tagja


205

Két csoportot egyes´ıt¨ unk, ha a közt¨ uk lév˝o hasonlóság, sim(C i , Cj ) ≥ θ, ahol Ci az i csoportban lév˝o mondatok középpontja. Minden egyes´ıtés után u ´ jraszámoljuk a keletkezett csoport középpontjának értékét. Az eljárást addig folytatjuk, am´ıg van olyan csoportpár, amelyek elegend˝oen hasonlóak az egyes´ıtéshez. A θ paraméter értéke nagy hatással van a csoportok megalkotására, tehát ez eljárás nem t´ ul robosztus. Ez a tulajdonság jav´ıtható, ahogy arra a [? ] tanulmány rámutat, ha nem a távolsági mérték alapján képezz¨ uk a csoportokat, hanem a leggyakoribb kulcsszavak mondatokban történ˝o el˝ofordulása alapján. A MEAD m´ odszer A MEAD módszer [? ] dokumentumgy˝ ujtemények kivonatolására alkalmas. Bemenete a dokumentumok TF-IDF s´ ulyozási sémával való csoportos´ıtásának eredménye. Minden klasztert egy k¨ ulön témának lehet tekinteni, amit a témára vonatkozó legnagyobb (TF-IDF) frekvenciáj´ u szavak reprezentálnak. A h´ırarch´ıvumok kivonatolása esetén a mondatkiválasztás három tényez˝ot vesz figyelembe. Els˝oként a klaszter közepét˝ol való távolságot (C i ), a mondatnak a dokumentumon bel¨ uli el˝ofordulását27 (Li ), és a dokumentum els˝o mondatával való hasonlóságot (Fi ). Ezen mennyiségek lineáris kombinációjaként a´ll el˝o egy mondat pontszáma, a korábban ismertetett módszereknél bemutatott módon (ld. (9.13) és (9.14) kifejezéseket). Itt az F tényez˝o szerepe megfelel a (9.13)-ben található T faktorénak. A k¨ ulönbség az, hogy a MEAD módszer esetén a mondat pontszámát redundanciacsökkentés érdekében u ´ jraszámolják az u ´ j mondatok bevétele után. A módszer hátránya, hogy a TF-IDF s´ ulyozási sémát alkalmazza, amely nem a leghatékonyabb kivonatolási technikák esetén. Másik gyenge pontja, hogy h´ırarch´ıvumok feldolgozására alkalmas, hiszen a három tényez˝ob˝ol kett˝o is (Fi és Li ) er˝osen a dokumentumok elején lév˝o mondatokat favorizálja, ezért más t´ıpus´ u dokumentumok esetén nem alkalmazható hatékonyan.

9.5.4. Gr´ afelm´ eleti megk¨ ozel´ıt´ esek Ahogy az el˝oz˝o szakaszban láttuk, a kivonatolás els˝o lépése több módszer esetén is a dokumentum mondatainak, vagy a dokumentumoknak a tematikus csoportos´ıtása. A mondatok gráfelméleti reprezentációja alkalmas eszköz témák meghatározására [? ]. A szokásos el˝ofeldolgozási lépések után a mondatokat egy irány´ıtatlan gráf csomópontjaival reprezentáljuk, és a csomópontok között éleket a mondatokban el˝oforduló közös szavak számával s´ ulyozzuk. Az élek s´ ulyára vonatkozóan minimális k¨ uszöbértéket is meghatározhatunk. Ennek a reprezentációnak két eredménye van : a gráfpart´ıciók, vagy -klikkek egy témához tartozó mondatokat azonos´ıtanak, és ´ıgy csoportbarendezést generálnak. A klikkek er˝osségét, tehát az egy csoportba tartotó mondatok kohézióját a k¨ uszöbérték növelésével emelhetj¨ uk, és ezáltal egy´ uttal a témák számát is szabályozhatjuk. Ez a reprezentáció egyaránt lehet˝oséget ny´ ujt a´ltalános és kérdés-vezérelt kivonatok létrehozására ; az el˝obbi esetben minden gráf klikkb˝ol egy-egy mondatot választva lefedj¨ uk az egész dokumentum(gy˝ ujtemény) témater¨ uletét, m´ıg az utóbbi esetben elegend˝o a kérdéssel egy klikkben lév˝o mondatok köz¨ ul kiválasztani néhányat. 27

Minél k¨ ozelebb van egy mondat a dokumentum elejéhez, ann´ al nagyobb ez az érték.


206

A másik fontos eredmény, hogy a nagyszám´ u éllel rendelkez˝o csomópontok a dokumentum(gy˝ ujtemény) fontos mondatait is meghatározzák, amelyeknek ezáltal nagyobb esélye van a kivonatba ker¨ ulésre. A grafikus megközel´ıtés könnyen hasznos´ıtható dokumentumon bel¨ uli és közötti o¨sszef¨ uggések vizuális megjelen´ıtésére is.

9.5.5. SVD haszn´ alata a kivonatol´ asban A kivonatolásnál is jól felhasználható a szinguláris értékfelbontás 28 (SVD) módszer azon tulajdonsága, képes többdimenziós adatok ortogonális dimenzióinak megtalálására. Az LSI-t dokumentum-szó mátrixokra alkalmazva képes olyan mondatok közötti szemantikus o¨sszef¨ uggések felfedésére is, amelyek nem tartalmaznak közös szavakat [? ]. Azok a szavak, amelyek többnyire azonos kontextusban szerepelnek ugyanazon szinguláris dimenzióban helyezkednek el. Az LSI módszer nagy el˝onye, hogy a fogalmi (vagy szemantikus) o¨sszef¨ uggéseket automatikusan az emberi agy a´ltal reprezentált módon képes megragadni [? ]. Az LSI jól használható témákra jellemz˝o szavak, illetve mondatok meghatározására egyaránt. Mivel az SVD fontossági sorrendben határozza meg a kölcsönösen ortogonális szinguláris irányokat a mondat-vektorok terében, ezért ha ezekb˝ol a dimenziókból választjuk a ki a reprezentat´ıv mondatokat, akkor egyrészt biztos´ıtva lesz a dokumentum teljes tematikájának lefedettsége, másrészt az ortogonalitás garantálja a redundancia-mentességet [? ]. Egyetlen megszor´ıtás, hogy csak eredend˝oen tematikus egységekbe rendezett szövegekre alkalmazható hatékonyan, a´m a legtöbb dokumentum ilyen szerkesztési elvet követ.

9.5.6. Esettanulm´ any : b¨ ong´ esz´ es t´ amogat´ asa kivonatol´ assal k´ ezi sz´ am´ıt´ og´ epeken A kivonatoló eljárásokat a szakasz bevezet˝ojében tárgyalt internetes keresés/böngészés seg´ıtésén k´ıv¨ ul még számos más ter¨ uleten is hatékonyan fel lehet használni, pl. o¨sszehasonl´ıtó táblázatok kész´ıtésére, többnyelv˝ u információkinyerés támogatására, biográfiai profilok kész´ıtésére, strukturált adatbázis-ép´ıtésre dokumentumok tartalmának automatikus feldolgozásával, stb. Itt most a kivonatolás egyik speciális és kézenfekv˝o felhasználási ter¨ uletét ismertetj¨ uk részletesebben : a kisképerny˝os (kézi szám´ıtógép, PDA ; mobiltelefon) tartalomszolgáltatás támogatását. Az Internet vezeték nélk¨ uli használata a felsorolt eszközök seg´ıtségével manapság egyre elterjedtebbé válik. A távolkeleten (Japán, Korea) az Internet használat jelent˝os részét a felhasználók a mobiltelefonjuk seg´ıtségével végzik. Az információigény jelent˝os része olyan szituációkban adódik — utazás, vásárlás közben, tárgyalások, illetve beszélgetések esetén — amikor vezetékes Internet nem elérhet˝o. A kézi szám´ıtógépek és a mobiltelefonok elvben ideális eszközök az ilyen esetekben adódó információigény kielég´ıtésére, azonban a kisméret˝ u kijelz˝ok gyakran akadályt jelentenek az Internet kényelmes használatában [? ], ugyanis a honlapok a kijelz˝o méretéb˝ol adódóan többnyire nehezen a´ttekinthet˝oek. További problémát jelent az adatbevitel nehézkessége, valamint az a tény, hogy rádióhullámokon kereszt¨ ul történ˝o letöltési sebesség, még mindig sokkal lassabb, mint vezetékes kapcsolat esetén. Ezen problémák egy részére az internetes tartalomszolgáltatás kivonatoláson kereszt¨ ul, több lépésben történ˝o megvalós´ıtása az egyik lehetséges megoldás. A felhasználók ugyanis a´ltalában 28

Sz¨ ovegb´ any´ aszati kontextusban l´ atens szemantikus indexelésnek (LSI) nevezik.


207

nem teljes Internet-oldalak tartalmára k´ıváncsiak, k¨ ulönösen a PDA-n és mobiltelefonon való böngészésre jellemz˝o helyzetekben, hanem csak egy töredékére, amin a releváns információ megtalálható, és ezek többnyire tényszer˝ u adatok vagy linkek. A továbbiakban a Buyukkokten és munkatársai a´ltal javasolt megoldást ismertetj¨ uk [? ? ], amely a weboldalakat a fokozatosan, a felhasználó igényét˝ol f¨ ugg˝oen jelen´ıti meg. Ezzel a módszerrel jelent˝osen csökkenthet˝o mind a letöltött adatmennyiség, s ezzel párhuzamosan a letöltési id˝o is, mind pedig a keresett információ megtalálásához sz¨ ukséges navigálási m˝ uveletek száma, valamint a böngészésre ford´ıtott id˝o. Weboldalak kivonatol´ as´ anak speci´ alis k´ erd´ esei Els˝o lépés az eredeti weboldal tartalmának feldarabolása u ´ n. szemantikus sz¨ ovegegységek re. A feldarabolás az oldal szerkezetét követi, amely az oldal (HTML, XML, PHP, stb.) forrását feldolgozva a tartalomból szövegegységek hierarchikus strukt´ uráját a´ll´ıtja el˝o. A szövegegységek a weboldalt alkotó részegységek, pl. bekezdések, listák és elemeik, táblázatok, képek, stb. Ezekb˝ol a szöveges módon megjelen´ıthet˝o egységeket dolgozzuk fel a továbbiakban, a képeket, illetve a t´ ul nagy méret˝ u táblázatok elhagyjuk. A szövegegységek kivonatolása felvet néhány problémát. Mivel itt nem teljes dokumentumok, hanem azok kisebb egységeire k´ıvánunk kivonatolót alkalmazni, ezért nehezebb feladatot jelenthet a kulcsszavak, ill. -mondatok meghatározása, mivel a szövegegységek terjedelme jellemz˝oen rövid. Másik k¨ ulönbség az, hogy a hagyományos kivonatoló módszerek nem támogatják a fokozatos megjelen´ıtést : egy dokumentum (itt : szövegegység) feldolgozásánál el˝oször az egészet beolvassák, majd statikusan kiválasztják annak egyes részleteit. Szintén megfontolást igényel a hiperlinkek a´brázolása is (megjelen´ıtés, aktivitás, hossz, fontosság a tartalmazó mondatra vonatkozóan). Vég¨ ul problémát okoz a kivonatolásnál használt statisztikák elkész´ıtése, hiszen a legtöbb módszer szóel˝ofordulások és -frekvenciaértékek alapján határozza meg egy adott mondat jelent˝oségét szövegegységen bel¨ ul. Mivel jelen esetben a dokumentumgy˝ ujtemény az egész világháló tartalma, azon el˝ofordulási statisztikákat kész´ıteni lehetetlen. Sz¨ ovegegys´ egek fokozatos megjelen´ıt´ es´ enek alternat´ıv´ ai A szövegegységek fokozatos megjelen´ıtésére az alábbi megoldásokat tesztelték : – inkrement´ alis : három lépésben : egy sor, három sor, egész szövegegység. – o ¨sszes : rögtön az egész szövegegység megjelenik, nincs fokozatosság. – kulcssz´ o : els˝o lépésben a szövegegységben azonos´ıtott kulcsszavak jelennek meg, a következ˝o fokozatban az els˝o három sor, majd vég¨ ul az egész szöveg látható lesz. – o ¨sszegz´ es : itt csak két lépcs˝o van : a legfontosabb mondat, majd a teljes szöveg megjelen´ıtése – kulcssz´ o/¨ osszegz´ es : ez az el˝oz˝o két módszer kombinációja, ahol el˝oször a kulcsszavak, majd a kiemelt mondat, vég¨ ul az egész szöveg jelenik meg. A hiperlinkek minden esetben akt´ıvan megjelennek, kivéve a kulcsszavak fázist. Amennyiben egy link nem fejez˝odik be a sor végén, a látható fragmense akkor is akt´ıv.


208

Kulcsszavak ´ es o ¨sszegz´ es meghat´ aroz´ asa A kulcsszavak a szövegegységben szerepl˝o egyes szavak kiértékelése alapján határozhatók meg. A TF-IDF formula kiszámolásához (ld. (9.3)) sz¨ ukséges a korpuszban el˝oforduló o¨sszes szó ismerete, ami természetesen nem megvalós´ıtható, ´ıgy közel´ıt˝o módszer alkalmazására van sz¨ ukség. Ezt egy webrobot alkalmazásával elkész´ıtett szótár seg´ıtségével lehet megbecs¨ ulni, amely az interneten gyakorta el˝oforduló szavakat tartalmazza. Egy szövegrészlet feldolgozása során minden szóra szótöves´ıtést alkalmazunk, majd a szótár, illetve az adott weboldalon való el˝ofordulási gyakoriság alapján meghatározzuk a szóhoz tartozó TF-IDF értéket. A szótárban nem szerepl˝o szavak esetén a szótárban szerepl˝o legkisebb gyakorisági értékkel számolnak. Egy k¨ uszöbérték elérése esetén a szó kulcsszavak közé ker¨ ul. Lehet˝oség van a speciális szedés˝ u (félkövér, d˝olt, stb.) szavak er˝osebb s´ ulyozására. A kivonat meghatározására a 9.5. szakaszban ismertetett bármelyik módszer alkalmazható. Az ismertetett tanulmány egy nagyon egyszer˝ u és könnyen implementálható, Luhn nevéhez f˝ uz˝od˝o [? ] korai módszer módos´ıtott verzióját használták a szövegegység legjellemz˝obb mondatának meghatározására. A megjelen´ıt˝ o m´ odszerek o ¨sszehasonl´ıt´ asa A fent ismertetett fokozatos megjelen´ıt˝o heurisztikákat egy 15 f˝ob˝ol a´lló, internetes böngészésben jártas csapat seg´ıtségével tesztelték. T´ız tipikusan vezeték nélk¨ uli internetezés közben felmer¨ ul˝o feladatot t˝ uztek ki a tesztel˝oknek, pl. link megkeresése adott oldalon, nyitvatartási id˝o megkeresése, filmmel, tudományos konferenciával, ill. tanulmánnyal kapcsolatos adat, valamilyen termék a´rának és egyéb paraméterének meghatározása, stb., u ´ gy, hogy a kiinduló oldalak adottak voltak. A teszt eredményei azt mutatták, hogy böngészési id˝ot tekintve az o¨sszegzés, ill. kulcsszó/összegzés fokozatokat használó megjelen´ıtési forma a legkézenfekv˝obb a felhasználóknak, m´ıg az inkrementális és az o¨sszes módszer a legkevésbé hatékony. A navigálási m˝ uveletek számát tekintve még er˝oteljesebb az eml´ıtett két módszer dominanciája, esetenként 97%-kal csökkent az egér, ill. billenty˝ uzet használat mértéke. Itt egyértelm˝ uen a kombinált kulcsszó/összegzés módszer bizonyult a legjobbnak. Vizsgálták még a letöltött adat mennyiségének csökkenési arányát. Az o¨sszegzés, kulcsszó és a kombinált módszerek esetén az alapértékként tekintett (HTML tag-ekt˝ol, képekt˝ol és táblázatoktól mentes) adatmennyiséghez képest némi pluszt jelent, hogy a kulcsszavak, illetve az o¨sszegzés elejét és végét jelz˝o indexértéket is tovább´ıtani kell a rendszernek a protokollban az a´tvitel során. Ez azonban mindössze rendre 4%, 24%, ill. 28% volt. A letöltött adatmennyiség a ,,legdrágább” esetben is a´tlagosan 87%-kal kevesebbnek bizonyult, ami alátámasztja az kivonatoláson alapuló módszer hatékonyságát a kisképerny˝os böngészés támogatására.

9.6. Egy´ eb sz¨ ovegb´ any´ aszati feladatok Ebben szakaszban röviden bemutatunk olyan további szövegbányászati feladatokat, amelyek részletes ismertetése — terjdelemi okok miatt — meghaladja e könyv kereteit.


209

9.6.1. Inform´ aci´ okinyer´ es Az inform´ aci´ okinyerés (information extraction – IE) az egyik legalapvet˝obb szám´ıtógépes szövegfeldolgozási feladat. Az IE algoritmusok a´ltalában mintafelismerési eljárások seg´ıtségével azonos´ıtják a szövegben a fontos kifejezéseket és a között¨ uk lév˝o kapcsolatokat. Legyen a példamondatunk ,,A Washington Post szombati h´ıre szerint, a Katrina hurrikán puszt´ıtását követ˝o káosz miatt egyre többen, közt¨ uk New Orleans polgármestere, Ray Nagin is, Busht és a szövetségi kormányt okolják”29 . Az információkinyer˝o szoftvereknek a mondatban azonos´ıtaniuk kell Ray Nagint és Busht mint személyeket, New Orleanst mint helysz´ınt, szombatot mint dátumot, a Washington Postot és a szövetségi kormányt pedig mint médiát (céget), illetve intézményt ; további feladatuk a személyek, helyek és id˝opontok közti o¨sszef¨ uggésekre való következtetés elvégzése is. Ez a módszer nagyban seg´ıtheti a felhasználókat a nagy adathalmazok gyors és hatékony feldolgozásában. Napjaink szövegbányász szoftverei mind tartalmazzák ezt a funkciót [55].

9.6.2. T´ emak¨ ovet´ es A témak¨ ovet˝ o rendszerek felhasználói profil vagy érdekl˝odés alapján a következtetnek a felhasználó számára érdekes más dokumentumokra. Jó példa erre a Yahoo ! a´ltal ingyenesen u ¨ ze30 meltetett témakövet˝o eszköz , amely a felhasználó a´ltal megadott kulcsszavak alapján értes´ıtést k¨ uld, ha a témában u ´ j h´ır jelenik meg. A piacon lév˝o eszközök többsége csak kulcsszó alap´ u keresést végez, aminek következtében gyakran el˝ofordul az az anomália, hogy a felhasználó eredeti érdekl˝odését˝ol k¨ ulönböz˝o dokumentumokat kap. Pl. ha a ,,text mining” kifejezést adjuk meg kulcsszóként, akkor többször kapunk bányászattal, mint szövegbányásza kapcsolatos h´ıreket. Ennek kik¨ uszöbölésére egyes fejlettebb témakövet˝o szoftverek esetén a felhasználó a´ltal az érdekl˝odési körét a rendszer a´ltal karbantartott taxonómiából kiválasztott kategóriák seg´ıtségével határozhatja meg. Még intelligensebb módszerek pedig erre automatikusan következtetnek a felhasználó a´ltal látogatott oldalak és a klikkelési szokások alapján. Az u ¨ zleti világban is jól alkalmazható ez az eszköz. Lehet˝oséget ad pl. konkurens vagy saját cégek, ill. termékek figyelésére az ´ırott elektronikus médiában. Hasonlóan fontos lehet bármely — pl. orvosi, oktatási, tudományos — szakmában a felhasználó sz˝ ukebb szakter¨ uletér˝ol szóló információk naprakész követésében.

9.6.3. Fogalomt´ ars´ıt´ as A fogalomt´ ars´ıt´ o (concept linkage) eszközök feladata, hogy dokumentumokban meglév˝o olyan közös fogalmakat azonos´ıtson, amely esetleg a felhasználó el˝ol hagyományos keresési módszerekkel rejtve lennének. Leginkább olyan ter¨ uleteken lehet hasznosan alkalmazni o˝ket, mint pl. az orvostudomány, ahol a rendk´ıv¨ ul nagymennyiség˝ u szöveges dokumentum elolvasása vagy a´tböngészése lehetetlen feladat. Kedvez˝o esetben a fogalomtárs´ıtó eljárások olyan kapcsolatokat is felfedhetnek betegségek és kezelési módok között ily módon, amit az ember nem képes megtalálni. A fogalomtárs´ıtó eszközök m˝ uködését jól szemlélteti az a módszer, ahogy D. Swanson két egymástól bibliográfiailag távol a´lló, a´m logikailag o¨sszef¨ ugg˝o kutatási ter¨ ulet o¨sszekap29 30

http://www.index.hu www.alerts.yahoo.com


210

csolásával azonos´ıtotta a magnézium szerepét a migrén kialakulásában [164]. A kutató azokban a közlemények el˝oforduló gyakori kifejezéseket vizsgálta, amelyek c´ım¨ ukben a ,,migrén” szót tartalmazták. Az egyik ily módon azonos´ıtott kulcsszó az ,,tovaterjed˝o kérgi gátlás” volt. Ezután hasonló keresést végzett ebb˝ol a kifejezésb˝ol kiindulva, s ´ıgy találta meg többek közt a ,,magnézium elégtelenség” terminust. A két fogalom közti tényleges o¨sszef¨ uggést elemz˝o kutatásaiban kimutatta, hogy a korábban még nem vizsgált magnézium elégtelenség a migrén kialakulásában komoly szerepet játszik. A Swanson a´ltal használt módszer alkalmazó automatikus eszközök jól alkalmazhatók szövegbányászatban [68]. Várhatóan az ilyen felhasználások a közeljöv˝oben nagyban seg´ıthetik a orvosi felhasználókat u ´ j kezelési módok felfedezésében.

9.6.4. Sz¨ oveges inform´ aci´ ok vizualiz´ al´ asa Nagyméret˝ u szöveges források/gy˝ ujtemények esetén a vizuális hierarchiában vagy térképpel történ˝o böngész˝o lehet˝oséggel kiegész´ıtett képi megjelen´ıtés nagymértékben seg´ıtheti a felhasználót a keresett téma és a hozzá tartozó dokumentumok könnyebb azonos´ıtásában. A szöveges adathalmazok képi megjelen´ıtését végzi az Informatik V DocMiner 31 terméke. Ennek seg´ıtségével a felhasználó interakt´ıv tartalom elemzést végezhet a vizualizált adatokon. A böngészést zoomolás, skálázás és résztérképek kész´ıtésének lehet˝osége is támogatja. 9.4. a´bra. Az Informatik V Doc Miner szoftverének felhasználói fel¨ ulette [55]

9.6.5. K´ erd´ es-megv´ alaszol´ as Ez az alkalmazási ter¨ ulet már nagyrészt a´tfed a következ˝o szakasz témájával, hiszen a kérdésmegválaszolásban (Question Answering – QA) nagy szerepet játszanak a nyelvtechnológiai eszközök. A feladat a´ltalánosan természetes nyelv˝ u kérdések többnyire természetes nyelven történ˝o megválaszolása adatbázis vagy a világháló seg´ıtségével. Nyelvtechnológiai projektek keretében f˝oleg angol nyelv˝ u Kérdés-megválaszoló rendszerek 32 ismertek, melyek köz¨ ul például az MIT fejlesztett START projekt az Internetr˝ol o¨sszegy˝ ujtött információk alapján válaszol. Hasonló módon dolgozik az Answerbus 33 és az AskJeeves34 keres˝o is. A természetes nyelv elemzésének bonyolultsága és nyelvtechnológiai eszközök jelenlegi fejlettségi szintje azonban behatárolja a kérdés-megválaszoló rendszerek hatékonyságát, amint azt az alábbi példa is jól szemlélteti. A When does the Siam Cuisine Restaurant open ? kérdésre az alábbi válaszokat kaptuk : – START : Unfortunately, I wasn’t told when Siam Cuisine Restaurant opens. – Answerbus : Siam Orchids Authentic Thai Cuisine Restaurant was opened on February 5, 2003. – AskJeeves : This Center City location is open for lunch and dinner seven days a week. 31

http://www-i5.informatik.rwth-aachen.de/lehrstuhl/projects/DocMINER/ http://www.ai.mit.edu/projects/infolab/ 33 http://www.answerbus.com/index.shtml 34 http://www.ask.com/

32


211

9.7. Nyelvfeldolgoz´ as ´ es sz¨ ovegb´ any´ aszat A szövegbányászati alkalmazásokban valamilyen mélység˝ u nyelvi feldolgozás alkalmazására szinte mindig sz¨ ukség van. A dokumentumok feldolgozása során leggyakrabban sz´ ot¨ ovez˝ o algo35 ritmusokat használunk, amely a bemeneti szónak megadja a szótövét Angol nyelv˝ u szövegek esetén a Porter-algoritmust [138] használják leggyakrabban36 . Amennyiben nemcsak szavak szintjén végezz¨ uk el a szövegek statisztikai feldolgozását, hanem a gyakoribb kifejezéseket is indexelj¨ uk a dokumentumokban és tároljuk a szótárban, akkor a kifejezéseket adatbányászati algoritmusokkal határozhatjuk meg, pl. Apriori [4] (ld. még ??. szakasz). Ha a szövegbányászati feladat statisztikák kész´ıtésénél részletesebb nyelvi feldolgozást — pl. szintaktikai vagy szemantikai elemzést — k´ıván, akkor sz¨ ukség van legalább egy 37 sz´ ofajc´ımkéz˝ o eszközre , vagy egy teljes morfológiai elemez˝ore. Ilyen feladatok pl. az információ-kinyerés, illetve az automatikus kérdés megválaszolás. Alapvet˝oen statisztikai jelleg˝ u problémák esetén (osztályozás, csoportos´ıtás) is tettek k´ısérletet nyelvtechnológiai eszközök bevetésére, de ezek szinte egyáltalán nem jav´ıtották az algoritmusok min˝oségét, ugyanakkor a jelent˝os er˝oforrástöbbletet igényeltek. Hatékony szintaktikai és szemantikai elemzéshez, illetve a mondatokon bel¨ uli u ´ n. névelemek azonos´ıtásához sz¨ ukség van olyan téma- és nyelvspecifikus adattárakra és/vagy tezauruszokra, ontológiákra. Az adatbázisok a k¨ ulöböz˝o t´ıpus´ u névelemeket (személy, helysz´ın, intézmény, cégnév, stb.), névszókat, igéket jellemz˝o vonzataikkal (vonzatkerettár) tartalmazzák. A tezauruszok, ill. ontológiák akkor ny´ ujthatnak többek között seg´ıtséget, ha egy adott terminus nincs benne a nyelvi adatbázisokban. Ekkor ugyanis a terminust valamelyik szinonimájával, vagy vele valamilyen ontológiai relációban lév˝o elemmel lehet az elemzés során helyettes´ıteni. A névelemek automatikus azonos´ıtására vannak fel¨ ugyelt tanulási sémát alkalmazó eljárások, de ezek hatékonysága nagyban f¨ ugg a tanulóadatoktól.

9.7.1. Sz¨ ovegb´ any´ aszat magyarul Mivel a szövegbányászat témaköre viszonylag fiatalnak tekinthet˝o, ezért a f˝obb kutatások fókuszában f˝oleg az elektronikus dokumentálás legfontosabb nyelve, az angol a´llt, utána messze lemaradva a többi nagy világnyelv, nem beszélve a világviszonylatban marginálisnak mondható magyar nyelvr˝ol38 . Az utóbbi id˝oszakban azonban — részben a hazai nyelvtechnológiai kutatások eredményeinek köszönhet˝oen — felélénk¨ ult a szám´ıtógépes magyar nyelvfeldolgozás ter¨ ulete, és ez lökést adott a magyar nyelvre vonatkozó szövegbányászati alkalmazásoknak. Mivel az alapvet˝o algoritmusok tekintélyes része nyelvf¨ uggetlen, ezért ezeknél a magyar vonatkozást a szövegfeldolgozási lépésnél találunk, ami többnyire valamely szótövez˝o eljárás alkalmazását jelenti. Az olyan bonyolultabb feladatoknál viszont, mint a kérdésmegválaszolás vagy az információkinyerés már lényegesen komolyabb szerepet kap a nyelv¨ technológia. Osszess´ egében tehát megállap´ıthatjuk, hogy a magyar nyelv˝ u szövegekkel kap35

Bizonyos esetekben, pl. a pal´ ank sz´ on´ al, t¨ obb sz´ ot˝ o is lehetséges, ennek kezelése azonban bonyolult sz¨ ovegértelmezési feladat; a példa esetében végre kell hajtani a sz´ ot˝ o egyértelm˝ us´ıtését. Mivel ez a jelenség viszonylag ritka, ezért a ´ltal´ aban feltételezz¨ uk, hogy a sz´ ot˝ o egyértelm˝ u. 36 Az algoritmus k¨ ul¨ onb¨ oz˝ o programnyelven ´ırt implement´ aci´ oi let¨ olthet˝ ok innen: http://www.tartarus.org. Itt a legt¨ obb eur´ opai nyelvhez is tal´ alhat´ o sz´ ot¨ ovez˝ o. 37 Part of Speech (POS) tagger 38 A magyar nyelvtan bonyolults´ aga és egyedisége szintén nem kedvezett a korai alkalmaz´ asoknak.


212

csolatos szövegbányászati alkalmazások olyan bonyolultság´ u feladatokkal képesek megbirkózni, amennyire fejlett nyelvtechnológiai eszközök jelenleg a piacon, illetve szabadon hozzáférhet˝oen rendelkezésre a´llnak. A linkgy˝ ujteményen bel¨ ul k¨ ulön részt szentel¨ unk a magyar vonatkozás´ u eredményeknek, projekteknek (ld. 9.8.4. pont).

9.8. Linkgy˝ ujtem´ eny Az alábbi linkek és a fejezetben idézett irodalmi hivatkozások nagy része megtalálhatóak a szerz˝o honlapján39 , ahol a hivatkozások érvényessége rendszeren ellen˝orizve van.

9.8.1. Tesztkorpuszok – http://www.daviddlewis.com/resources/testcollections/ : Itt található meg a Reuters-21578 és egy korábbi verziója, az RCV-1, és a TREC-AP korpusz. – http://about.reuters.com/researchandstandards/corpus/ : A Reuters Corpus Volume 1 hivatalos honlapja. – http://trec.nist.gov/data.html : Az egyik legnagyobb gy˝ ujtemény, ahol szövegbányászati eljárások tesztelésére alkalmas adatok vannak. Itt található pl. az OHSUMED korpusz (filtering track), amelyet több osztályozó vizsgálatánál is használtak. – http://people.csail.mit.edu/jrennie/20Newsgroups/ : Szintén többször alkalmazott adathalmaz. – http://www.wipo.int/ibis/datasets/index.html : számára érhet˝o el.

csak

regisztált

felhasználók

9.8.2. Cikk- ´ es linkgy˝ ujtem´ enyek – http://liinwww.ira.uka.de/bibliography/Ai/index.html : Cikkgy˝ ujtemény, ahol sok szövegbányászati témáj´ u publikáció is található, k¨ ulönösen a kimondottan szövegosztályozással foglalkozó automated.text.categorization.html oldalon. – http://filebox.vt.edu/users/wfan/text_mining.html : Szövegbányászattal kapcsolatos cikkek, termékek projektek linkgy˝ ujteménye. – http://dmoz.org/Reference/Knowledge_Management/Knowledge_Discovery/Text_ Mining/ : vegyes linkgy˝ ujtemény. – http://www.text-mining.org/ : Szövegbányászattal foglalkozók közösségének honlapja. 39

http://categorizer.tmit.bme.hu/~domi/links


213

9.8.3. Sz¨ ovegb´ any´ aszati szoftverek – http://registry.dfki.de/ : gy˝ ujteménye.

Nyelvtechnológiai

és

– http://www.cs.uic.edu/~liub/LPU/LPU-download.html : szövegosztályozó szoftver.

szövegbányász

szoftverek

Ingyenesen

letölthet˝o

– http://www.intext.de/eindex.html : Angol és német nyelv˝ u szövegeken dolgozó szövegelemz˝o program. – http://ka.rsten-winkler.de/hypknowsys/diasdem/index.html : A Diasdam projekt a´ltal fejlesztett szemantikus szövegfeldolgozó szoftver honlapja. – http://software.wise-guys.nl/libtextcat/ : Nyelv- és karakterkódolás felismer˝o program, amely többek közt a magyar nyelvre is m˝ uködik. – http://www.clearforest.com/Products/Platform.asp : hatékonyan kezelni képes u ¨ zleti intelligenciai alkalmazás. – http://www.clearforest.com/Products/Tags.asp : eljárásokat tartalmazó programcsomag.

Szöveges

Szövegelemz˝o

adatokat és

is

osztályozó

– http://www.inxight.com/products/sdks/lx/ : Jó pár nyelvtechnológiai és szövegbányászati eljárást tartalmazó programcsomag (nyelv- és karakterkódolás fel¨ ismer˝o, szótövez˝o, tokenizáló, szófajc´ımkéz˝o, és névszói kifejezésfelismer˝o). Osszesen 31 nyelvet, közt¨ uk a magyart is támogatja. – http://www.inxight.com/products/sdks/sum/ : Az Inxight 19 nyelvet támogató o¨sszegzéskész´ıt˝o szoftvercsomagja.

9.8.4. N´ eh´ any magyar vonatkoz´ as´ u eredm´ eny ´ es projekt – http://mokk.bme.hu/projektek/szoszablya : A projekt létrehozta a Magyar Webkorpuszt — egy minden korábbinál nagyságrenddel nagyobb méret˝ u magyar nyelv˝ u tokenizált szöveggy˝ ujteményt —, az ez alapján kész´ıtette Szószablya gyakorisági Szótárat, a szabadon elérhet˝ o hunmorph morfológiai elemz˝ot, a hunstem szótövez˝ot és a hunspell helyes´ırás-ellen˝orz˝ot, valamint a programok a´ltal használt magyar helyes´ırási és morfológiai szótárat40 . – http://corpus.nytud.hu/mnsz : A Magyar Nemzeti Szövegtár. 150 millió szót tartalmaz, morfológiai elemzéssel és automatikus szófaji egyértelm˝ us´ıtéssel (97,4%-os). ¨ Az egyértelm˝ us´ıtést statisztikai alap´ u eljárással érték el. Ot eltér˝o nyelvhasználatból származó szövegeket o¨lel fel : sajtó, szépirodalom, (tudományos) értekez˝o próza, hivatali nyelvhasználat és személyes közlés. 40

Let¨ oltés innen: http://magyarispell.sourceforge.net/


214

– http://www.inf.u-szeged.hu/projectdirs/hlt/nkfp2001.htm : A projekt rövid u ¨ zleti jelleg˝ u h´ırekb˝ol történ˝o releváns információ kinyerésével foglalkozott. Az információkinyerés célja tehát strukturált — gépileg lekérdezhet˝o, feldolgozható — adathalmaz el˝oa´ll´ıtása szöveges dokumentumok tartalmából.

10. fejezet Webes adatb´ any´ aszat Az Internetr˝ol történ˝o automatikus információkinyer˝o alkalmazások gombamód szaporodnak napjainkban. A ter¨ ulet mélyebb a´ttekintése t´ ulmutat ezen ´ırás keretein, ezért csak a talán legfontosabb két témát járjuk kör¨ ul : a weboldalak rangsorolását és az intelligens Internetes keresést. Az oldalak közötti megfelel˝o rangsor feláll´ıtása napjaink kritikus feladata. A keres˝orendszerek mindennapos eszközökké váltak. Naponta milliók használják, ´ıgy a helyes m˝ uködés¨ uk mindenki érdeke. Minden honlapkész´ıt˝o a´lma, hogy az oldala els˝oként jelenjen meg a keres˝ok a´ltal visszaadott listában. Ez cégeknek sok látogatót és ´ıgy sok potenciális u ¨ gyfelet jelent, másfel˝ol a gyakran látogatott oldalakon elhelyezett reklámok is jó bevételt jelentenek. Központi szerep¨ uk miatt fokozott támadásoknak vannak kitéve. Egy rangsoroló algoritmus elkész´ıtésekor ezért fontos megvizsgálni, hogy az milyen tr¨ ukkökkel lehet azt becsapni, és ezek ellen hogyan kell védekezni.

10.1. Oldalak rangsorol´ asa Képzelj¨ uk el azt a ritkának nem mondható helyzetet, amikor egy keres˝orendszer a feltett kérdés¨ unkre rengeteg oldalt talál, olyan sokat, hogy kivitelezhetetlen feladat egyesével a´tnézni azokat és kiválasztani a fontosakat. Mégis tudjuk azt, hogy a talált oldalaknak valamilyen köze van a kérdés¨ unkhöz : egyeseknek több, másoknak kevesebb. Sz¨ ukség van tehát az oldalak automatikus rangsorolására, aminek alapkövetelménye, hogy formálisan is tudjuk definiálni egy weboldal fontosságát”. Felmer¨ ul a kérdés, hogy objekt´ıv” e a fontosság definiálása. A válasz egyszer˝ u : nem. A kérdésre kiadott dokumentumok között ugyanis k¨ ulönböz˝o emberek nem ugyanazt a sorrendet a´ll´ıtanák fel. A feladatot meg kell oldani, akkor is ha tökéletes megoldást még elméletileg sem tudunk adni. Megelégsz¨ unk ezért a fontosság valamilyen heurisztikán alapuló közel´ıtésével. Algoritmikusan szemlélve két algoritmuscsalád létezik, az egyik családba tartozó algoritmusok a gr´ af o ¨sszes pontj´ at s´ ulyozz´ ak, majd a s´ ulyok rendezésével a´llap´ıtják meg a sorrendet. Ezek a glob´ alis algoritmusok, m´ıg a másik családot kérdésf¨ ugg˝ o rangsorol´ asok nak nevezhetj¨ uk, ami azt jelenti, hogy a rangsoroló algoritmus minden kérdésnél lefut, és ekkor csak egy részgr´ af cs´ ucsait pontozza. Mindkét családnak megvan a maga el˝onye, az els˝onek csak egyszer kell lefutni, és utána csak memóriából való olvasás a keres˝oszoftver feladata, m´ıg a második figyelembe tudja venni azt a tényt, hogy egy weboldal k¨ ulönböz˝o témáj´ u kereséseknél k¨ ulönböz˝o módon szignifikáns. 215

´ ´ 10. FEJEZET. WEBES ADATBANY ASZAT

216

10.1.1. Az egyszer˝ u Page Rank A Google keres˝orendszerben 1998-ban implementált Page Rank (Brin-Page) algoritmus a gyakorlati alkalmazások során nagyon jó eredményt hozott [129]. A továbbiakban az o˝ módszer¨ uket mutatjuk be. Rendelkezés¨ unkre a´ll N darab weboldal a hagyományos weboldalak minden tulajdonságával. Feladat lenne ezek között egyfajta fontossági sorrendet feláll´ıtani. Egy oldal fontosságát, hasznosságát jól t¨ ukrözi az oldalt meglátogató emberek száma. A legtöbb oldal kész´ıt˝oi azonban a letöltések számát illet˝oen semmilyen auditálást nem végez, ´ıgy rangsoroló algoritmust nem alapozhatunk ezen információkra. A linkeknek nagy szerep¨ uk van a fontosságban. Ha valaki saját oldalán egy másik oldalra mutató linket helyez el, akkor azt azért teszi, mert szerinte, a másik oldal hasznos információt tartalmaz, kapcsolódik az oldal témájához, valamilyen szempontból fontos. A Page Rank algoritmus (és minden kifinomult keres˝o rendszer) az oldalak közötti linkstrukt´ ura alapján definiálja a fontosságot. Egy oldal fontosságát az oldal rangja adja meg. Elképzeléseinknek megfelel az az a´ll´ıtás, hogy ha valahova sok link mutat, akkor az fontos oldal, továbbá, ha egy oldal fontos, akkor az a´ltala mutatott lapok is azok. Informálisan egy rekurz´ıv defin´ıciót adnánk a fontosságnak : egy ” oldal fontos, ha fontos oldalak mutatnak rá”. A rang meghatározásához sz¨ ukség¨ unk van az oldalak közötti linkstrukt´ ura ismeretére. Definiáljuk az N weblaphoz A N ×N -es sor-sztochasztikus mátrixot az alábbiak szerint : amennyiben az i-edik lapon n link található, akkor 1 ha j-re mutat link i-r˝ol Aij = n 0 egyébként Az A mátrix (sor-)sztochasztikus, azaz ∀i-re mátrixokra igaz a következ˝o tétel :

PN

j=1

Aij = 1, Aij ≥ 0. A sor-sztochasztikus

10.1. t´ etel. Legyen A sor-sztochasztikus m´ atrix (N × N -es), j = ( N1 , . . . , N1 ). Ekkor p = lim jAm m→∞

létezik és pA = p. at az i-edik lap rangja 10.2. defin´ıci´ o. A p = (p1 , . . . , pN ) ∈ RN + vektor a lapok rang-vektora (teh´ pi ). Az algoritmus menete a következ˝o : I. Kész´ıts¨ uk el az A mátrixot az adott weblapok topológiájából. II. Kezdetben minden oldal rangja

1 , N

tehát p = ( N1 , . . . , N1 ),

III. végezz¨ uk el pi+1 ← pi A iterációt, IV. ha teljes¨ ulnek a leállási feltételek akkor STOP, ellenkez˝o esetben ugrás az el˝oz˝o utas´ıtásra.


217

Leállási feltétel lehetne az, hogy a p rang-vektor egy adott k¨ uszöbnél kisebbet változik. Az eredeti célunk azonban az egyes oldalak rangsorolása, nem pedig a pontos rangértékek meghatározása. Ezért sokkal ésszer˝ ubb, ha akkor a´ll´ıtjuk le az iterációt, ha a rang-vektor alapján feláll´ıtott sorrend nem változik egy adott szám´ u iteráció után. A fent kimondott tétel a garancia arra, hogy az iteráció során p rang-vektor egy vektorhoz konvergál, amib˝ol következik, hogy az algoritmus minden esetben le fog a´llni. Képzelj¨ uk azt, hogy kezdetben minden oldal fontossága N1 , és minden lap a következ˝o lépést hajtja végre : a saját fontosságát egyenl˝o mértékben szétosztja az a´ltala mutatott oldalak között. Könny˝ u végiggondolni, ha a fenti lépést hossz´ u id˝on kereszt¨ ul folytatják, akkor minden lap fontossága meg fog egyezni a fent definiált rang-vektor laphoz tartozó rangértékével. A fenti algoritmus elfogadásához egy másik intuit´ıv magyarázat lehetne az alábbi : Tegy¨ uk fel, hogy a sztochasztikus szörföl˝o” egy olyan, az Interneten barangoló lény, aki a kiindulási ” lapot, egyenletes eloszlás szerint, véletlenszer˝ uen választja ki, valamint minden következ˝o oldalt az aktuálisról elérhet˝ok köz¨ ul választja ki hasonlóan véletlenszer˝ uen. Belátható, hogy annak a valósz´ın˝ usége, hogy végtelen sok lépés után a szeszélyes szörföl˝o az i-edik lapra ker¨ ul, p i . M Az algoritmus vitathatatlan el˝onye, hogy gyors (N · j · A jól szám´ıtható) és könnyen programozható. Nézz¨ unk egy nagyon egyszer˝ u példát az algoritmusra. 3 oldalt kell rangsorolnunk, amelyek linkstrukt´ urája a következ˝o a´brán látható. X

Y Z

10.1. a´bra. Példa az egyszer˝ u Page Rank algoritmusra A topológia alapján az A mátrix : 1

 0 12 A = 0 0 1 1 1 0 2 2 2

Az els˝o három iteráció után a rang vektor N -szerese :

N · p1 = (1,1,1) 1 3 N · p2 = (1, , ) 2 2 9 1 11 N · p3 = ( , , ) 8 2 8 5 11 17 N · p4 = ( , , ) 4 16 16


218

Megmutatható, hogy p = ( 65 , 53 , 65 ) Ennek az egyszer˝ u algoritmusnak két nagy hibája van, melyeket zsákutca, illetve pókháló problémának h´ıvunk. Zs´ akutca probl´ ema Zsákutcának nevezz¨ uk azt az oldalt, amir˝ol nem mutat link semmilyen más lapra, de más lapról mutat rá. Amennyiben az oldalak között zsákutca van, akkor az A mátrix ehhez az oldalhoz tartozó sora csupa 0 elemet fog tartalmazni. Ekkor az A mátrix nem lesz sor-sztochasztikus, és oldalak fontossága kiszivárog” a rendszerb˝ol. A probléma szemléltetésére nézz¨ uk a következ˝o ” a´brán látható lapstrukt´ urát.

X

Y

10.2. a´bra. Példa zsákutcára 1 1 A hozzá tartozó mátrix : A = 02 02 . Könnyen ellen˝orizhet˝o, hogy A2 = 1 Am = 2m−1 A, amib˝ol adódik, hogy a rangvektor a 0 vektorhoz fog tartani.

1 1 4 4

0 0

= 12 A , továbbá

P´ okh´ al´ o probl´ ema Lapok olyan rendszerét, amelyben minden link csak e rendszerbeli lapra mutat, pókhálónak nevezz¨ uk. Jellemz˝o rájuk, hogy az iteráció során magukba gy˝ ujtik (esetleg az o¨sszes) a fontosságot. Ez komoly visszaélésekhez adhat alapot és SPAM-eléshez vezethet, hiszen linkek eltávol´ıtásával bárki alak´ıthat ki pókhálót, amennyiben van arra az oldalra mutató link. Példaként térj¨ unk vissza a 10.1 laptopológiához, csak most tegy¨ uk fel, hogy Y a Z-re mutató linkjét a´táll´ıtja u ´ gy, hogy ezent´ ul saját magára mutasson. Ekkor A mátrix a következ˝oképpen módosul :  1 1 0 2 2 A = 0 1 0 1 1 0 2 2

a rang vektor N -szerese az els˝o négy iteráció során :

N · p1 = (1,1,1) 3 1 N · p2 = (1, , ) 2 2 3 7 1 N · p3 = ( , , ) 4 4 2 5 3 N · p4 = ( ,2, ) 8 8 1 35 5 N · p5 = ( , , ) 2 16 16 belátható, hogy a rang vektor a p = (0,1,0) vektorhoz fog tartani.


219

10.1.2. Az igazi Page Rank A fenti két probléma kik¨ uszöbölésére az oldalak megadóztatását javasolták. Ennek o¨tlete az, hogy szedj¨ uk be mindenkit˝ol fontosságának bizonyos százalékát, majd a beszedett adót osszuk el egyenl˝oen. Amennyiben -nal jelölj¨ uk a befizetend˝o adót, akkor a fentiek alapján A mátrix   1 N

1 N

1 N

1 N

helyett a B = · U + (1 − ) · A mátrixot használjuk, ahol U =  . . . . . . . .

Könnyen ellen˝orizhet˝o, hogy a B mátrix sor-sztochasztikus, ´ıgy alkalmazhatjuk rá a 10.1-es tételt, ami ismét garantálja, hogy az algoritmus le fog a´llni. Az igazi Page Rank algoritmusban az egyes lapok nem csak szomszédjaiknak osztják szét fontosságukat, hanem el˝oször befizetik az adót a királyi kincstárba, és csak a maradékot osztják szomszédjaiknak. Fontosságot pedig kapnak a rá mutató oldalak mellett a kincstárban található beszedett adóból is, egyenl˝o mértékben. Amennyiben A mátrix helyett B mátrixot alkalmazzuk, a sztochasztikus szörföl˝ore nem lesz igaz az, hogy pi annak valósz´ın˝ usége, hogy i-edik oldalra lép. Igaz lesz viszont a szeszélyes szto” chasztikus szörföl˝ore”, akire valósz´ın˝ uséggel rájön a szeszély, és ilyenkor a következ˝o a´llomását, egyenletes eloszlást követve, véletlenszer˝ uen választja a lapok köz¨ ul. Az igazi Page Rank algoritmust a kezdeti Google(http ://www.google.com) keres˝orendszer használta a talált oldalak rangsorolásához. A keres˝orendszerr˝ol részletesebb le´ırás található a [29] cikkben.

10.2. Webes keres´ es Internetes keresés során egy keres˝orendszert˝ol két t´ıpus´ u kérdésre kérhet¨ unk választ : t´ ag k´ erd´ es A választ tartalmazó, vagy a kérdéshez kapcsolódó oldalak száma nagy. Ilyen kérdés lehet, hogy információt szeretnénk a java nyelvr˝ol, vagy a gépkocsigyártókról. sz˝ uk k´ erd´ es Ezen olyan specifikus kérdést ért¨ unk, amelyre a választ kevés oldal tartalmazza. ˝ Ilyen kérdés lehet, hogy A 2001. Urod¨ usszeia hányadik percében hangzik el az els˝o emberi ” szó ?” Sz˝ uk kérdésre a válaszadás automatikus módja jóval nehezebb feladat, mint tág kérdésre. Sz˝ uk kérdésnél annak veszélye fenyeget, hogy egyáltalán nem találunk választ pusztán hasonló szavakon alapuló kereséssel. Tág kérdéseknél ezzel szemben a probléma éppen a válaszhoz kapcsolódó lapok t´ ul nagy száma lehet. Ebben a részben arra keres¨ unk választ, hogy miként tudjuk kiválasztani a tág kérdésre kapott nagy mennyiség˝ u oldalból a kérdéshez leginkább kapcsolódó oldalakat.

10.2.1. Gy˝ ujt˝ olapok ´ es Tekint´ elyek – a HITS algoritmus Az 1999-ben Jon Kleinberg a´ltal publikált Gy˝ ujt˝olapok és Tekintélyek (Hubs and Authorities) módszere [96] a lapok linkstrukt´ uráját használja fel. A linkstrukt´ ura mellett számos információ a´llhat rendelkezés¨ unkre, amelyek seg´ıtség¨ unkre lehetnek az oldalak fontosságának meghatározásában. A látogatások számát már eml´ıtett¨ uk. Probléma vele, hogy az oldalak elenyész˝o részét figyelik auditáló szoftverek.


220

Az oldalon elhelyezett metaadatok, kulcsszavak, az oldal le´ırása, de ezenk´ıv¨ ul a szövegben kiemelt szavak (d˝olt bet˝ u, vastag bet˝ u, villogó bet˝ u . . . ) szintén seg´ıthetnek a kérdéhez kapcsolódás mértékének eldöntésében. A tanulmányban ezek szerepét nem vessz¨ uk figyelembe. Jelölj¨ uk σ-val a kérdést, amire a választ keress¨ uk. Az algoritmus fázisai a következ˝ok : I. Mσ (mag)laphalmaz kiválasztása hagyományos keres˝ovel. II. Mσ b˝ov´ıtésével bázis lap-részgráf konstruálása. Jelölj¨ uk ezt a bázist B σ -val. III. A σ-hoz tartozó gy˝ ujt˝olapok és tekintélyek (szimultán) kisz˝ urése B σ -ból. A gy˝ ujt˝olapoknak és tekintélylapoknak nem adunk pontos matematikai defin´ıciót. Minden oldalhoz egy gy˝ ujt˝olap- és egy tekintélyértéket fogunk rendelni. Minél nagyobbak ezek az értékek, annál inkább tekint¨ unk egy oldalt az adott kérdéshez tartozó gy˝ ujt˝o-, illetve tekintélylapnak. Intuit´ıv defin´ıciója a két fogalomnak a következ˝o lehetne : gy˝ ujt˝olap az olyan lap, ami sok tekintélylapra mutat, tekintélylapok pedig azok, amire sok gy˝ ujt˝olap mutat. Ezek szerint a gy˝ ujt˝olapok a σ szempontjából értékes linkek gy˝ ujteménye, a tekintélylapok pedig a σ kérdéshez kapcsolódó értékes információkat tartalmazó lapok. Például az AMS honlapja egy matematikai gy˝ ujt˝olap, Jeffrey D. Ullman adatbányászatról szóló jegyzetvázlata pedig tekintélylap, amennyiben σ =”adatbányászati algoritmusok”. Amikor egy kérdést feltesz¨ unk, akkor els˝osorban a válasz érdekel benn¨ unket, nem pedig az olyan oldalak, amik sok hasznos oldalra mutatnak. Az eredmény szempontjából a tekintélyoldalak a fontosak. Ezek megtalálásához gyakran a gy˝ ujt˝ooldalakon kereszt¨ ul vezet az u ´ t, ´ıgy érdemes o˝ket egy¨ utt keresni. Most pedig nézz¨ uk részletesen az algoritmus egyes lépéseinek m˝ uködését. Mσ mag meghat´ aroz´ asa Az algoritmus kiindulását képez˝o weboldalaknak egy hagyományos keres˝o a´ltal σ kérdésre kiadott els˝o t darab lapját vessz¨ uk. Ez a kezd˝okészlet azonban nem mentes a hagyományos keres˝orendszerek a´ltal adott hibáktól. Egyrészr˝ol lehet, hogy fontos oldalak nincsenek benne a találati listában. A ”gépkocsi gyártók” kérdésre például nem fogják kiadni a Honda honlapját, mert a lapon ilyen szóo¨sszetétel nincsen. Másrészr˝ol sok olyan oldalt is generálni fog, amelyek nem kapcsolódnak a témához. Ennek több oka is lehet, például az, hogy a kérdésnek több értelme is van (gondoljunk itt a Java nev˝ u szigetre), vagy az egyes oldalak hazudnak”, ” azaz olyan tartalmat a´ll´ıtanak magukról, amelyek nem igazak(pl. :mp3, free holiday . . . ). A fenti hátrányok ellenére elmondhatjuk, hogy ennek a magnak a környezete” már hasznos in” formációkban gazdag lesz. Bσ b´ azis l´ etrehoz´ asa A gy˝ ujt˝olapokat és a tekintélyoldalakat a bázisból fogjuk kinyerni, ´ıgy ezzel szemben az alábbi elvárásaink vannak : I. Ne legyen t´ ul nagy ! II. Legyen fontos lapokban gazdag ! III. Tartalmazza a σ-hoz releváns lapokat (vagy azok legtöbbjét) !


221

Bázis

Mag

10.3. a´bra. Bázis generálása a magból A tesztelés során kapott eredmények azt mutatták, hogy az alábbi egyszer˝ u algoritmus a gyakorlatban jól m˝ uködik. Induljunk ki az el˝oz˝o pontban definiált magból(azaz legyen B σ =Mσ ), majd adjuk hozzá az o¨sszes olyan oldalt, amelyre mutat link valamely Bσ -beli oldalról. Ezen k´ıv¨ ul vegy¨ uk Bσ -hoz azokat az oldalakat, amelyekr˝ol mutat link valamely Bσ -beli lapra. Elképzelhet˝o, hogy népszer˝ u oldal is van Bσ -ban, amelyre rengeteg oldal mutathat, ezért egy oldal maximum egy el˝ore meghatározott konstans (d) szám´ uu ´ j lap felvételét okozhatja”. Ezért ha egy lapra d” nél több lap mutat, akkor válasszunk ezek köz¨ ul véletlenszer˝ uen d darabot. Törölj¨ uk a bázisból a navigációt szolgáló éleket (pl. : vissza az el˝oz˝o oldalra) u ´ gy, hogy csak a k¨ ulönböz˝o hosztok közötti élek maradjanak. Itt azt a feltételezést tett¨ uk, hogy a hosztokat meg lehet k¨ ulönböztetni URL-j¨ uk alapján (Ez nyilván nem tökéletes megoldás, gondoljunk csak a unix alap´ u rendszerekre, ahol az egyes felhasználók honlapjának domainnevei megegyeznek. Nem könny˝ u kérdés az, hogy egy adott domaint mikor tekints¨ unk csak egy oldalnak, illetve mikor osszuk fel többre. Kleinberg tapasztalata szerint a t = 200, d = 50 mellett a bázis mérete 1000 és 5000 között lesz. Tekint´ elyek kinyer´ ese A tesztek alapján a bázis tartalmazni fogja a tekintélyek nagy részét. Hogyan lelj¨ uk meg ezeket a több ezer oldal köz¨ ul ? Els˝o o¨tlet lehetne, hogy a nagy be-fok´ u cs´ ucsok reprezentálják a kereséshez kapcsolódó fontos oldalakat. Ez a megoldás azonban felemás eredményt ad : a jó oldalak mellett lesznek u ´ gynevezett univerzálisan népszer˝ u” oldalak is. Ezekre jellemz˝o, hogy ” σ-tól f¨ uggetlen¨ ul a legtöbb kérdéshez tartozó bázisban megtalálhatóak. Például, ha σ =”java”, akkor a Bσ -ban a legnagyobb be-fok´ u cs´ ucsokhoz tartozó oldalak a I. www.gamelan.com II. java.sun.com III. amazon.com IV. karibi vakációkat hirdet˝o oldal


222

Az utolsó két oldalt valamilyen automatikus módon ki kellene sz˝ urni. Kleinbergnek a következ˝o sz˝ ur˝o o¨tlete támadt. A σ kérdéshez tartozó tekintélyeknek nagy be-fokon k´ıv¨ ul jellemz˝oje, hogy nagy az a´tfedés azokban a laphalmazokban, amik rájuk mutatnak. Ezekben benne lesznek a téma gy˝ ujt˝olapjai. A következ˝o a´bra szemlélteti a tekintélyek és az univerzálisan népszer˝ u lapok közötti k¨ ulönbséget. A téma gy˝ ujt˝olapjai és tekintélyei a´ltalában Univerzálisan népsz. lapok

Tekintélyek

10.4. a´bra. Topológiai k¨ ulönbség a tekintélyek és az univerzálisan népszer˝ u lapok között egy s˝ ur˝ u páros gráfot alkotnak, m´ıg az univerzálisan népszer˝ u lapokra szabálytalanul, o¨sszevissza mutatnak a linkek. A s˝ ur˝ u páros gráf megtalálása a következ˝oképpen történik. Legyen C a B σ weblaphalmazhoz tartozó szomszédossági mátrix, tehát cij = 1 ha i → j,0 k¨ ulönben. Ez hasonl´ıt a Page Rank algoritmusnál ismertetett A mátrixra, azzal a k¨ ulönbséggel, hogy nincs sztochasztikusan skálázva. Rendelj¨ unk minden laphoz egy gy˝ ujt˝olap, illetve egy tekintélylap értéket, tehát vezess¨ uk be a g = (. . . , gi , . . .), gi ≥ 0 t = (. . . , ti , . . .), ti ≥ 0

gy˝ ujt˝o-, illetve tekintély vektorokat, amelyek legyenek normált vektorok, tehát ||g|| = ||t|| = 1. A két vektorra a tekintély és gy˝ ujt˝olap intuit´ıv defin´ıciója miatt legyen érvényes a következ˝o két szabály : g = λCt t = µC T g azaz egy lap gy˝ ujt˝oértéke az a´ltala mutatott tekintélyértékeinek o¨sszege- λ-val skálázva, és egy lap tekintélyértéke azon lapok gy˝ ujt˝oértékeinek o¨sszege, amelyek rá mutatnak-µ-vel skálázva. A két egyenletet egymásba ´ırva : g = λµCC T g t = λµC T Ct Hasonlóan, mint az oldalak rangját a Page Rank algoritmusnál, a g és t vektorokat is iterat´ıvan határozzuk meg. A lépések :  1  |Bσ |

I. t(0) = g (0) =  ...  1 |Bσ |


223

II. tˆ(i+1) ← C T Ct(i) és gˆ(i+1) ← CC T g (i) III. t(i+1) ←

tˆ(i+1) ||tˆ(i+1) ||

és g (i+1) ←

gˆ(i+1) ||ˆ g (i+1) ||

IV. ha teljes¨ ul a leállási feltétel, akkor STOP, ha nem GOTO 2 A leállási feltételr˝ol hasonló mondható el, mint a Page Rank algoritmusnál : nem g és t pontos értéke érdekel benn¨ unket, hanem az els˝o néhány, legnagyobb tekintélyértékkel rendelkez˝o oldal. A tapasztalati eredmények azt mutatták, hogy 20 iteráció után a legnagyobb 5-10 tekintélyértékkel rendelkez˝o oldal már stabilizálódik. A k´ısérleti eredmények mellett mindig hasznos, ha matematikai tételek is igazolják azt, hogy az algoritmus véget fog érni, azaz t(i) és g (i) konvergálnak valahova. A következ˝o tétel ezt a matematikai megalapozást ny´ ujtja. A tétel bizony´ıtása a B f¨ uggelékben található. 10.3. t´ etel. A fent defini´ alt t(i) és g (i) sorozatok konverg´ alnak nemnegat´ıv érték˝ u vektorokhoz. Kleinberg módszere igen jó eredményt ért el lényeges oldalak kisz˝ urésénél nagy találati halmazokból. Például a σ =”Gates”-re, a legfontosabb oldalnak a http ://www.roadahead.comot találta, majd ezek után jöttek a Microsofthoz kapcsolódó oldalak. A gy˝oztes oldal Bill Gates könyvének hivatalos weblapja, amit az AltaVista csak a 123. helyre rangsorolt.

10.2.2. A SALSA m´ odszer Az algoritmus ([106], Stochastic Approach for the Link-Structure Analysis) a már megismert Mag és Bázis halmazokon dolgozik, és egy véletlen sétát valós´ıt meg az alább definiált gráfokon, amely az eredeti gráf pontjainak Gy˝ ujt˝olap és Tekintély tulajdonságait emeli ki. A Gt ill. Gg gráfok cs´ ucsai legyenek az eredeti gráf cs´ ucsai (a weboldalak), az i és j pont között pedig annyi él van, ahány olyan cs´ ucs (Gy˝ ujt˝olap) van, amib˝ol i-be és j-be is mutat link, ill. hány olyan cs´ ucs (Tekintély) van, amibe i-b˝ol és j-b˝ol is van él. Megjegyzésként elmondható, hogy a HITS algoritmusban egy (dupla) lépés alatt ezen gráfok o¨sszes élén továbbadtuk az induló cs´ ucs pontszámát, m´ıg a SALSA algoritmusnál nem az egészet, hanem figyelembe vessz¨ uk azt, hogy minden cs´ ucs ugyanannyit tovább´ıtson, ´ıgy egy-egy Markov láncot definiálunk a gráfokon. Az Mt és Mg Markov láncok formális defin´ıciójához a B(i) = {k : k → i} mellett sz¨ ukség¨ unk lesz a F (i) = {k : i → k} jelölésre. Az el˝oz˝o bekezdés szerint a megfelel˝o a´tmenetvalósz´ın˝ uségek a következ˝ok : X 1 1 ill. Pt (i, j) = |B(i)| |F (k)| k:k∈B(i)∩B(j)

Pg (i, j) =

X

k:k∈F (i)∩F (j)

1 1 . |F (i)| |B(k)|

Az egyens´ ulyi s´ ulyokat kiszám´ıtó iteráció ind´ıtása

majd az iteráció lépése :

1 [t]0 := g 0 := (1, . . . ,1)T , N


[t(i)]k :=

X

224

Pt (j, i) [t(j)]k−1 , ill.

j

X g(i) k := Pg (j, i) g(j) k−1 . j

Feltéve egy pillanatra, hogy a Markov láncaink irreducibilisek, azaz a két fent definiált gráf o¨sszef¨ ugg˝o, az a´ll´ıtható, hogy az egyens´ ulyi eloszlásokban két pont tekintély ill. gy˝ ujt˝olap s´ ulyának aránya megegyezik az eredeti gráfban vett be- ill. ki-fokszámainak arányával. Az a´ll´ıtás abból következik, hogy irreducibilis Markov láncnak egyértelm˝ u a stacionárius eloszlása, és a fenti s´ ulyarányokat feltéve az a´ll´ıtás ellen˝orizhet˝o a következ˝oképpen : Az irreducibilitás miatt egyértelm˝ u stacionáris eloszlás ki kell elég´ıtse, hogy X Pt (j, i)t(j). ∀i t(i) = j

Most B-vel az élek halmazát jelölve és feltéve az el˝oz˝oek szerint, hogy ∀i t(i) =

|B(t)| , |B|

´ıgy számolhatunk :

t(i) =

X

t(j)Pt (j, i) =

j

X j

=

t(j)

k∈B(j)∩B(i)

X |B(j)| j

X

|B|

X |B(j)|

X

1 1 = |B(j)| |F (k)|

k∈B(j)∩B(i)

1 1 = |B(j)| |F (k)|

X 1 1 = |B| |B(j)| |F (k)| j k∈B(j)∩B(i) X X 1 1 = = |B| j |F (k)| =

k∈B(j)∩B(i)

= =

1 |B|

X X

k∈B(i) j∈F (k)

1 = |F (k)|

|B(i)| 1 X 1= |B| |B| k∈B(i)

Ennek megfelel˝oen a le´ırt iterat´ıv algoritmus lefuttatására tulajdonképpen nincs sz¨ ukség, hiszen a stacionáris eloszlás az el˝obbi elméleti eredmény felhasználásával k¨ ozvetlen¨ ul sz´ am´ıthat´ o. Ezzel egy¨ utt természetesen az is igaz, hogy az algoritmus könnyen becsapható, hiszen – az el˝oz˝o fejezetben le´ırtak szerint – az oldalunkra mutató linkek száma tetsz˝olegesen növelhet˝o. Itt jegyezz¨ uk meg, hogy a SALSA az egyenletes eloszlással ind´ıtott HITS algoritmus els˝o lépésének felel meg, ezután az els˝o lépés után a SALSA stacionáris eloszlásának s´ ulyai jelennek meg.


225

Több komponensb˝ol a´lló gráf esetén az algoritmus csak abban a komponensben dolgozik, ahonnan indult a séta. Mivel az indulás egyenletesen lett választva, ezért egy adott komponensb˝ol való indulás valósz´ın˝ usége a komponens méretével arányos, azaz az alapgráfot G-vel, komponenseit Gk -val, az i cs´ ucs komponensének indexét j-vel jelölve ai =

|Gj | |B(i)| P , |G| α∈Gj |B(α)|

ahol a nevez˝oben lev˝o o¨sszeg a komponens o¨sszes éleinek száma.

10.2.3. Gy˝ ujt˝ olapok, Tekint´ elyek ´ es v´ eletlen s´ et´ ak Mint láthattuk, a SALSA algoritmus o¨tlete az eredeti gráfból egyszer˝ uen származtatható másik gráf(ok)on megvalós´ıtott véletlen séta volt. Láttuk továbbá, hogy az eredeti Gy˝ ujt˝olap és Tekintély algoritmusunk els˝o lépése ekvivalens a SALSA-val. Jogosan kérdezhetj¨ uk tehát, hogy az eredeti algoritmusnak létezik-e véletlen séta analogonja, illetve a´tfogalmazva a kérdést, hogy az eredeti algoritmus is kapcsolatba hozható-e Markov láncok stacionáris eloszlásaival ? A válasz persze igenl˝o, hiszen minden sztochasztikus vektorhoz létezik olyan Markov lánc, amelynek stacionáris eloszlása éppen az a vektor. A kérdés már csak az, hogy létezik-e olyan ezzel a tulajdonsággal b´ıró Markov lánc is, amelynek a´tmenetvalósz´ın˝ uségei az eredeti gráfból származtathatók ? A válasz – kissé meglep˝o módon – az, hogy az algoritmus o¨sszes közb¨ uls˝o eredménye el˝oa´ll az eredeti gráfból származtatható Markov lánc stacionáris eloszlásaként, bár az, hogy az els˝o fél lépés után már igaz ez (ott a SALSA s´ ulyok jelennek meg), már el˝orevet´ıti az eredményt. Vezess¨ uk be a következ˝o jelöléseket : egy B illetve egy F lépésnek egy a webgráfban lev˝o link követését nevezz¨ uk hátra illetve el˝ore irányban. Ezek kombinációit is definiáljuk, például BF BF = (BF )2 egy négylépéses sétát jelent a webgráfban. Az i pontból a j pontba vezet˝o (BF )n séták halmazát jelölje (BF )n (i, j), az i pontból induló (BF )n séták halmazát jelölje (BF )n (i), továbbá az o¨sszes (BF )n séták halmazára használjuk magát a (BF )n jelölést ! Az (F B)n séták halmazai hasonlóan értend˝ok. Most definiáljuk a következ˝o két Markov láncot : az a´llapotok halmaza az o¨sszes cs´ ucs, amely magában az alapgráfban is benne volt, m´ıg két cs´ ucs között pontosan akkor van él, ha az alapgráfban van közt¨ uk legalább egy (BF )n illetve (F B)n séta. Az a´tmenetvalósz´ın˝ uségek pedig legyenek : Pt (i, j) := Pg (i, j) :=

|(BF )n (i,j)| , |(BF )n (i)| n |(F B) (i,j)| . |(F B)n (i)|

illetve

A defin´ıciókból az látható, hogy |(BF )n (i, j)| = (C T C)n (i, j) |(F B)n (i, j)| = (CC T )n (i, j), |(BF )n (i)| = n

|(F B) (i)| =

P

P

j (C

T

és és ezekb˝ol

C)n (i, j)

j (CC

T n

) (i, j).

és


226

Az eredeti HITS algoritmus n. iterációja után a pontszám vektorok normálás nélk¨ ul (C T C)n 1 illetve (CC T )n 1, azaz o¨sszeg normában ez ugyanaz, mint a megfelel˝o Markov láncok stacionáris eloszlása : t(i) = g(i) =

|(BF )n (i)| |(BF )n | |(F B)n (i)| |(F B)n |

Elmondható tehát, hogy az algoritmus végs˝o pontszámarányai a cs´ ucsokból induló hossz´ u BF illetve F B séták számainak arányától f¨ ugg, aminek az a következménye, hogy nagyon er˝osen kötött alakzatok (teljes páros részgráfok) környékét az algoritmus kiemeli.

10.2.4. Automatikus forr´ as el˝ o´ all´ıt´ o - Gy˝ ujt˝ olapok ´ es Tekint´ elyek m´ odos´ıt´ asai Gy˝ ujt˝olapok és Tekintélyek alap´ u keresést sikerrel alkalmazták automatikus forrás el˝oa´ll´ıtás során (automatic resource compilation, röviden ARC) [34]. A továbbiakban err˝ol szólunk pár szót. ´ Altal´ anosabb fogalmak keresésénél gyakran használunk el˝ore szerkesztett hierarchikus fogalomtárakat. A legismertebb fogalomtárak a Yahoo ! vagy az Infoseek oldalán találhatók. Ha például információkra van sz¨ ukség¨ unk a tangóról, akkor a Yahoo ! f˝ooldaláról a Recreation & Sports (kikapcsolódás és sport) linket választva eljuthatunk egy u ´ jabb oldalra. Itt már választhatjuk a dance (tánc) linket, majd a Ballroom-ot (társas) és vég¨ ul a tangót. Innen már nem léphet¨ unk tovább u ´ jabb alkategória kiválasztásával, hanem a tangóval foglalkozó legfontosabb weboldalak listáját láthatjuk. Mind a fogalomhierarchia felép´ıtése, mind az egyes fogalmakhoz tartozó legfontosabb weboldalak megkeresése manuális u ´ ton történik, tehát emberek járják a világhálót és keresik az olyan oldalakat, amelyek tényleg hasznos információval szolgálnak a fogalomról. Az ARC-nál a második lépést próbálták automatizálni : adott egy tág fogalom, keress¨ uk meg a hasznos információkat tartalmazó weboldalakat. Ehhez a Gy˝ ujt˝olapok és Tekintélyek keresést használták, két módos´ıtással. Egyrészr˝ol kétszer, nem pedig egyszer alkalmazták azt a lépést, amely során a Magból(M σ ) a Bázist(Bσ ) el˝oa´ll´ıtották. Emiatt a Bázis mérete n˝ott, viszont nem veszt¨ unk el olyan oldalt, amely a hagyományos keres˝o a´ltal kiadott oldalaktól 2 link távolságra van. Másrészr˝ol módos´ıtották az iteráció során használt C mátrixot is. Tudjuk, hogy a weboldalak HTML kódjában a ¡A HREF=””¿¡/A¿ tag jelent egy linket. Ha például egy oldalban a ingyen sms tag található, akkor ha a szörföl˝o az ingyen sms szóra kattint, akkor a www.mtnsms.com oldalra ker¨ ul. Megfigyelték, hogy nagyon gyakran a HREF tag környezetében az oldalt jellemz˝o szavak találhatók. Ez nem meglep˝o, hiszen az oldalak kész´ıt˝oi minél jobban próbálják seg´ıteni az oldalt látogatóinak navigációját. A tag környezete tehát fontos, mert ha megtalálható ott a kérdéses fogalom, akkor várható, hogy a link egy hasznos oldalra mutat. Szomszédossági mátrix helyett ezért olyan mátrixot javasoltak, amely elemei a következ˝oképp szám´ıthatók : 1 + n(f ) ha j-re mutat link i-r˝ol cij = 0 egyébként


227

ahol n(f ) a fogalom el˝ofordulásának száma egy adott szélességen bel¨ ul a HREF tagt˝ol. A szélességet k´ısérleti u ´ ton próbálták meghatározni : azt vizsgálták, hogy pár ismert oldalra mutató több ezer oldalban hol található meg az ismert oldalakat jellemz˝o szó. A tesztek eredményeként megállap´ıtották, hogy ha az oldalon megtalálható a jellemz˝o szó, akkor 97%-ban az a HREF 50 byte-os környezetében is megtalálható. Az algoritmust implementálták, és széleskör˝ u felmérést kész´ıtettek, amelyben a megkérdezetteknek arra kellett válaszolniuk, hogy szerint¨ uk adott fogalmakra a három keres˝o(ARC, Infoseek, Yahoo !) köz¨ ul melyik találta meg a legjobb oldalakat. A felmérésb˝ol kider¨ ult, hogy a teljesen automatikus, emberi munkát nem igényl˝o ARC ugyanolyan jól teljes´ıtett, mint a másik két rendszer [34].

10.2.5. Gy˝ ujt˝ olapok ´ es Tekint´ elyek m´ odszer´ enek h´ atr´ anyai Vizsgálatok kimutatták, hogy a Gy˝ ujt˝olapok és Tekintélyek módszerének három hátránya van [20]. I. El˝ofordulhat, hogy egy hoszton található dokumentumhalmaz minden eleme egy másik hoszton található dokumentumra mutató linket tartalmaz. Ez növelni fogja a dokumentumhalmaz elemeinek gy˝ ujt˝olap értékét és a másik hoszton található dokumentum tekintélyértékét. Ennek ellenkez˝oje is könnyen el˝ofordulhat, nevezetesen : egy hoszton található dokumentum több olyan dokumentumra mutat, amelyek egy másik hoszton találhatóak. Látható, hogy a´l hosztpárok létrehozásával a gy˝ ujt˝olap- és tekintélyértékek növelhet˝ok, ami visszaélésre ad lehet˝oséget. Egy igazságos algoritmustól elvárjuk, hogy egyik hoszt se növelhesse t´ ulzott mértékben mások fontosságát. II. A weboldalakat gyakran automatikusan a´ll´ıtják el˝o valamilyen segédeszköz seg´ıtségével. Ezek az eszközök sokszor linkeket helyeznek el a generált oldalakon. Például a Hypernews rendszer USENET cikkeket konvertál weblapokká u ´ gy, hogy a Hypernews honlapjára mutató linket sz´ ur az oldal végére. Ezekre a linkekre nem igaz a fejezet elején elhangzott a´ll´ıtás, miszerint az oldal szerz˝oje azért helyezi el a linket oldalán, mert a másik oldal a saját oldal témájára nézve hasznos információkat tartalmaz. III. Bázis laphalmaz létrehozása során a Mag laphalmazhoz u ´ j oldalakat vesz¨ unk fel a linkstrukt´ ura alapján. Az u ´ j oldalak között sok olyan lehet, amelyek nem kapcsolódnak a kérdéses témához. Amennyiben ezeket az oldalakat szoros linkstrukt´ ura köti o¨ssze, akkor a témasodródás” problémája mutatkozik : a legnagyobb tekintélyértékkel rendelkez˝o ” oldalak csak tágabb értelemben fognak a témához kapcsolódni. Egy egyszer˝ u teszt megmutatta, hogy a ”jaguar and car” kérdésre a legjobb tekintélyoldalak (amelyek k¨ ulönböz˝o autógyártó cégek honlapjai lettek) az a´ltalánosabb fogalomhoz (car) kapcsolódtak. Az els˝o esetben a problémát az okozza, hogy egy hoston elhelyezett több dokumentum o¨sszbefolyása t´ ul nagy lehet : minél több dokumentum található egy hoszton, annál inkább képes növelni más hoszton található dokumentum tekintély- vagy gy˝ ujt˝olapértékét. Ideális esetben azt várnánk, hogy egy hoszton található dokumentumhalmaznak o¨sszesen akkora befolyása legyen, mintha ezen a hoszton csak egyetlen dokumentum lenne található. Ehhez módos´ıtanunk kell az iteráció során használt mátrixot : amennyiben egy hosztrol k darab


228

dokumentum tartalmaz linket egy másik hoszton található dokumentumra, akkor a C mátrix ezen dokumentumaihoz tartozó értéke 1 helyett k1 legyen. Az [20] cikkben a másik két problémára is javasoltak megoldást. Szövegelemzés felhasználásával a Bázisban található oldalakhoz relevancia értéket társ´ıtanak, ami megadja, hogy az adott oldal mennyire kapcsolódik a témához. A relevancia értéknek több szerepe van. Egyrészt a témához kis mértékben kapcsolódó (kis relevancia érték˝ u) lapokat törölj¨ uk a Bázisból, másrészt a tekintély- illetve gy˝ ujt˝olapérték meghatározásához a lap relevanciaértékét is figyelembe vessz¨ uk : a relevanciaértékkel arányosan n˝o egy lap tekintély- illetve gy˝ ujt˝olapértéke. A szövegelemzéssel b˝ov´ıtett Gy˝ ujt˝olapok és Tekintélyek módszerét a továbbiakban nem tárgyaljuk, a részletek megtalálhatók a [20] cikkben. A fejezetben bemutatott két f˝o algoritmusról pár o¨sszehasonl´ıtó tesztet találhatunk a [10] cikkben.

11. fejezet Gyakori mint´ ak kinyer´ ese A fejlett társadalmakra jellemz˝o, hogy számos, a mindennapi élet¨ unk során gyakran használt terméket és szolgáltatást nélk¨ ulözhetetlennek tartunk. Minél soksz´ın˝ ubb a felhasználói csoport, annál nehezebb egy olyan u ¨ zenetet eljuttatni rész¨ ukre, ami mindenki számára egyértelm˝ u, a´m ha valakinek ez siker¨ ul, az nagy haszonnal járhat, hiszen pár százalékpontos növekedés is szignifikáns a nagy volumenben értékes´ıtett termékeknél. A piaci stratégiák kialak´ıtásánál is els˝osorban a sokaságra, illetve a sokaság jellemz˝oire vagyunk k´ıváncsiak. Egyedi, k¨ ulönc elemek akkor érdekesek, ha például csalásokat akarunk felder´ıteni. Fenti eseteken k´ıv¨ ul vizsgálhatjuk a gyakori balesetet okozó helyzeteket, a szám´ıtógépes hálózatban gyakran el˝oforduló, riasztással végz˝od˝o eseménysorozatokat, vagy pl. azt, hogy az egyes nyomtatott médiumoknak milyen az olvasói o¨sszetétele, és amennyiben több magazinnak, u ´ jságnak hasonló a célcsoportja, érdemes u ¨ zenet¨ unket több helyen is elhelyezni, hogy hatékonyabban o¨sztönözz¨ uk meglev˝o és potenciális vásárlóinkat. Oldalakon kereszt¨ ul lehetne sorolni azon példákat, amikor a gyakran el˝oforduló dolgok” ” értékes információt rejtenek magukban. A szakirodalomban a dolgokat mintáknak nevezz¨ uk, és gyakori mint´ ak kinyerésér˝ ol beszél¨ unk. A minta t´ıpusa többféle lehet. Vásárlói szokások felder´ıtésénél gyakori elemhalmazokat keres¨ unk, ahol az elemek a termékeknek felel meg. Utazásokkal kapcsolatos szokásoknál a gyakran igénybe vett, költséges szolgáltatások sorrendje is fontos, ´ıgy gyakori sorozatokat keres¨ unk. Telekommunikációs hálózatokban olyan feltételek (predikátumok) gyakori fennállását keress¨ uk, amelyek gyakran eredményeznek riasztást. Ezeket a gyakori bool formul´ akat megvizsgálva kaphatjuk meg például a gyakori téves riasztások okait. A böngészési szokások alapján fejleszthetj¨ uk oldalaink strukt´ uráját, linkjeit, ´ıgy a látogatók még gyorsabban és hatékonyabban találják meg a keresett információkat. A böngészés folyamatát c´ımkézett gy¨ okeres f´ akkal jellemezhetj¨ uk Gyakori mintákat kinyer˝o algoritmusokat a rákkutatásban is alkalmaztak. Azt vizsgálták, hogy a rákkelt˝o anyagokban vannak-e gyakran el˝oforduló molekula-strukt´ urák. Ezeket a strukt´ urákat c´ımkézett gráfokkal ´ırjuk le. A példákból következik, hogy a minta t´ıpusa sokféle lehet. Sejthetj¨ uk, hogy más technikákat kell majd alkalmazni pl. c´ımkézett gráfok keresésénél, mintha csak egyszer˝ u elemhalmazokat keres¨ unk. Ebben a részben egy a´ltalános le´ırást adunk, egy egységes matematikai keretbe helyezz¨ uk a gyakori minta kinyerésének feladatát. Emellett ismertetj¨ uk a legfontosabb módszerek a´ltalános – a minta t´ıpusától f¨ uggetlen – le´ırását.

229

´ KINYERESE ´ 11. FEJEZET. GYAKORI MINTAK

230

11.1. A gyakori minta defin´ıci´ oja E rész megértéséhez feltételezz¨ uk, hogy az olvasó tisztában van a 2.1 részben definiált fogalmakkal (rendezések, korlát, valódi korlát, maximális korlát, predikátum,). 11.1. defin´ıci´ o. A H halmaz a rendezésre nézve lokálisan véges, ha minden x, y∈H elemhez, ahol x y,véges sz´ am´ u olyan z elem létezik, amelyre x z y. 11.2. defin´ıci´ o. Az MK = (M, ) p´ arost, ahol M egy alaphalmaz, az M-en értelmezett részben rendezés, mintakörnyezetnek nevezz¨ uk, amennyiben M-nek pontosan egy minim´ alis eleme van, M halmaz a rendezésre nézve lok´ alisan véges és rangszámozott (graded), azaz létezik a ||:M→Z u ń. méretf¨ uggvény , amire |m| = |m0 |+1, ha m-nek maxim´ alis val´ odi als´ o korl´ atja 0 m . Az M elemeit mintáknak (pattern) nevezz¨ uk és M-re, mint mintahalmaz vagy mintatér hivatkozunk. Az m0 m esetén azt mondjuk, hogy m0 az m részmint´ aja, ha m0 ≺ m, akkor val´ odi részmint´ ar´ ol beszél¨ unk. A -t tartalmaz´ asi rel´ aci´ onak is h´ıvjuk. Az a´ltalánosság megsértése nélk¨ ul feltehetj¨ uk, hogy a minimális méret˝ u minta mérete 0. Ezt a mintát u ¨res mint´ anak h´ıvjuk. Íme az egyik legegyszer˝ ubb példa mintakörnyezetre, amelyet vásárlói szokások feltárása során alkalmaztak el˝oször. Legyen I véges halmaz. Gyakori elemhalmazok keresésénél a (2 I , ⊆ ⊆) lesz a mintakörnyezet, ahol ⊆ a halmazok tartalmazási relációját jelöli. A méretf¨ uggvény egy halmazhoz az elemszámát rendeli. Az elemhalmazokon t´ ul kereshet¨ unk gyakori sorozatokat, epiz´ odokat (véges halmazon értelmezett részben rendezéseket), bool formul´ akat, c´ımkézett gy¨ okeres f´ akat vagy a ´ltal´ anos gr´ afokat. Ezen mintakörnyezetek pontos defin´ıcióját a következ˝o fejezetekben találjuk. 11.3. defin´ıci´ o. Legyen (H1 , 1 ) (H2 , 2 ) két részben rendezett halmaz. Az f :H1 →H2 f¨ uggvény rendezés váltó vagy m´ as sz´ oval anti-monoton, amennyiben tetsz˝ oleges x, y ∈ H 1 , x 1 y elemekre f (y) 2 f (x). 11.4. defin´ıci´ o. A gyakori minta kinyerésnek feladatában adott egy B bemeneti (vagy feldolgozand´ o) adathalmaz, MK = (M, ) mintak¨ ornyezet, egy suppB : M → N anti-monoton f¨ uggvény és egy min supp ∈ N k¨ usz¨ obsz´ am. Feladat, hogy megkeress¨ uk azon mint´ akat, amelyekre a supp f¨ uggvény min supp-n´ al nagyobb vagy egyenl˝ o értéket ad : GY = {gy : gy ∈ M, suppB (gy) ≥ min supp}. A suppB f¨ uggvényt t´ amogatotts´ agi f¨ uggvénynek (support function), min supp-ot t´ amogatotts´ agi k¨ usz¨ obnek, a GY elemeit pedig gyakori mint´ aknak h´ıvjuk. A nem gyakori mintákat ritk´ aknak nevezz¨ uk. Az érthet˝oség kedvéért a B tagot gyakran elhagyjuk, továbbá a supp(m)-re mint a minta támogatottsága hivatkozunk. A támogatottsági f¨ uggvény értéke adja meg, hogy egy minta mennyire gyakori a bemenetben. Az elemhalmazok példájánál maradva a bemenet lehet például elemhalmazok sorozata. Ekkor egy H halmaz támogatottságát u ´ gy értelmezhetj¨ uk, mint a sorozat azon elemeinek száma, amelyek tartalmazzák H-t. Például az h{A, D}, {A, C}, {A, B, C, D}, {B}, {A, D}, {A, B, D}, {D}i bemenet esetén supp({A, D}) = 4. Ha min supp-nak 4-et adunk meg, akkor GY = {{A}, {D}, {A, D}}. A támogatottság anti-monotonitásából következik az alábbi egyszer˝ u tulajdonság. 11.5. tulajdons´ ag. Gyakori minta minden részmint´ aja gyakori.


231

A mintákat elemhalmazok, sorozatok, gráfok, stb. Amerikai kutat´ as sor´ an formájában fogjuk keresni, azaz a minták mindig valamilyen ”meg´ allap´ıtott´ ak, hogy 1 o ´ra alaphalmazon definiált strukt´ urák lesznek. Ha az alaphal- tévézés hat´ as´ ara 200 doll´ arral mazon definiálunk egy teljes rendezést, akkor az alapján – t¨ obbet k¨ olt¨ unk a rekl´ amok mikönnyebben vagy nehezebben – a mintákon is tudunk teljes att.” Forrás : Sláger rádió, 2007. rendezést adni. Ezt például elemhalmazok esetében a lexi- október 25., 17 o´ra 48 perc kografikus rendezés, gráfok esetében a kanonikus c´ımkézés seg´ıtségével fogjuk megtenni. A mintákon értelmezett teljes rendezés egyes algoritmusoknál (pl. : APRIORI) a hatékonyság növelésére használható, másoknak pedig alapfeltétele (pl. : Zaki). Sokszor fog felbukkanni a prefix fogalma is, amihez szintén egy teljes rendezésre lesz sz¨ ukség. 11.6. defin´ıci´ o. Legyen a H halmazon értelmezett részben rendezés. A ≺ 0 teljes rendezést a ≺ lineáris kiterjesztésének h´ıvjuk, ha minden x ≺ y p´ arra x ≺ 0 y teljes¨ ul. A lineáris kiterjesztéseknek azon csoportja érdekes számunkra, amelyek mérettart´ oak. Ez azt 0 jelenti, hogy |x| < |y| esetén a x ≺ y feltételnek is fenn kell a´llnia. Amikor tehát a MK = (M, ) mintakörnyezet tagjának egy mérettartó lineáris kiterjesztését akarjuk megadni, akkor az azonos méret˝ u elemek között definiálunk egy sorrendet. A továbbiakban a mérettartó jelz˝ot elhagyjuk, és minden lineáris kiterjesztés alatt mérettartó lineáris kiterjesztést ért¨ unk. 11.7. defin´ıci´ o. Legyen MK = (M, ) mintak¨ ornyezet és 0 a egy line´ aris kiterjesztése. Az 0 m minta `-elem˝ u részmint´ ai k¨ oz¨ ul az szerinti legels˝ ot h´ıvjuk az m minta `-elem˝ u prefixének. Például, ha I = {A, B, C, D, E}, és az azonos méret˝ u mintákon az abc rendezés szerinti lexikografikus rendezést vessz¨ uk a teljes rendezésnek, akkor például az {A, C, D, E} minta 2-elem˝ u prefixe az {A, C} halmaz.

11.1.1. Hat´ ekonys´ agi k´ erd´ esek A bemeneti adat és a minták halmaza a´ltalában nagy. Például bemeneti sorozatok esetében nem ritkák a 109 nagyságrend˝ u sorozatok, a mintatér pedig a´ltalában 105 nagyságrend˝ u halmazok hatványhalmaza. Ilyen méretek mellett a na´ıv algoritmusok (például határozzuk meg a mintahalmaz minden elemének támogatottságát, majd válogassuk ki a gyakoriakat) t´ ul sok ideig futnának, vagy t´ ul nagy lenne a memóriaigény¨ uk. Hatékony, kifinomult algoritmusokra van sz¨ ukség, amelyek speciális adatstrukt´ urákat használnak. Egy algoritmus hatékonyságát a futási id˝ovel (ami arányos az elemi lépések számával) és a felhasznált memóriával jellemezz¨ uk. Például megmondhatjuk, hogy adott méret˝ u bemenet esetén a´tlagosan, vagy legrosszabb esetben mennyi elemi lépést (összehasonl´ıtás, értékadás), illetve memóriát használ. Sajnos a gyakori mintát kinyer˝o algoritmusok mindegyike legrosszabb esetben a teljes mintateret megvizsgálja, ugyanis a támogatottsági k¨ uszöb f¨ uggvényében a mintatér minden eleme gyakori lehet. A gyakori minta-kinyerés korszakának els˝o 10-15 évében az algoritmusok hatékonyságát – elméleti elemzések h´ıján – minden esetben teszteredményekkel igazolták. Szinte minden algoritmushoz lehet találni olyan bemeneti adatot, amit az algoritmus nagyon hatékonyan képes feldolgozni. Ennek eredményeként például, csak a gyakori elemhalmazokat kinyer˝o algoritmusok


232

száma meghaladja a 150-et, és a mai napig nem tudunk olyan algoritmusról, amelyik az o¨sszes többit legy˝ozné futási id˝o vagy memóriafogyasztás tekintetében. A jöv˝o feladata ennek a káosznak a tisztázása. Ehhez a legfontosabb lépés a bemeneti adat karakterisztikájának formális le´ırása lenne. Sejtj¨ uk, hogy legjobb gyakori mintakinyer˝o algoritmus nem létezik, de talán van esély¨ unk értelmes megállap´ıtásokra, ha a bemenetre vonatkozóan k¨ ulönböz˝o feltételezésekkel él¨ unk (szokásos feltétel például az, hogy a bemenet olyan sorozat, melynek elemei kis méret˝ u halmazok vagy az, hogy csak nagyon kevés magas támogatottság´ u minta van) és ezekhez próbáljuk megtalálni az ideális algoritmust.

11.2. Tov´ abbi feladatok A gyakori mintakinyerés egyik nagy kritikája, hogy sokszor t´ ul nagy a kinyert minták száma. Vannak olyan feladatok, ahol nem az o¨sszes gyakori mintát k´ıvánjuk kinyerni, hanem csak egy rész¨ uket. Erre példa az u ´ n. top-k mintakinyerés, melynek során a k legnagyobb támogatottság´ u mintát keress¨ uk. Emellett az alábbi feladatok léteznek.

11.2.1. Nem b˝ ov´ıthet˝ o´ es z´ art mint´ ak 11.8. defin´ıci´ o. Az m gyakori minta B-re nézve nem b˝ov´ıthet˝o (maximal), ha nem létezik olyan m0 gyakori minta B-ben, amelynek m val´ odi részmint´ aja. 11.9. defin´ıci´ o. Az m minta B-re nézve z´ art, amennyiben nem létezik olyan m0 minta Bben, amelynek m val´ odi részmint´ aja, és m0 t´ amogatotts´ aga megegyezik m t´ amogatotts´ ag´ aval 0 (supp(m ) = supp(m)). Az ember azonnal láthatja, hogy mi értelme van annak, hogy csak a nem b˝ov´ıthet˝o mintákat keress¨ uk meg : egyértelm˝ uen meghatározzák a gyakori mintákat és számuk kevesebb. Sajnos a nem b˝ov´ıthet˝o minták alapján csak azt tudjuk megmondani, hogy egy minta gyakori-e, a támogatottságot nem tudjuk megadni (legfeljebb egy alsó korlátot). Nem ilyen triviális, hogy mi értelme van a gyakori zárt mintáknak. Azt látjuk, hogy a zárt gyakori minták a gyakori minták részhalmazai, és a zárt minták részhalmaza a nem b˝ov´ıthet˝o minták, hiszen 11.10. tulajdons´ ag. Minden nem b˝ ov´ıthet˝ o minta z´ art. Mégis mi célt szolgálnak a gyakori zárt minták ? Ennek tisztázásához két u ´ j fogalmat kell bevezetn¨ unk. 11.11. defin´ıci´ o. Az m0 minta az m minta lezártja, ha m m0 , supp(m) = supp(m0 ) és nincs m00 : m0 ≺ m00 , melyre supp(m0 ) = supp(m00 ). Nyilvánvaló, ha m zárt, akkor lezártja megegyezik o¨nmagával. 11.12. defin´ıci´ o. Az MK=(M, ) mintak¨ ornyezet a zártságra nézve egyértelm˝ u, amennyiben minden m ∈ M minta lez´ artja egyértelm˝ u.


233

Látni fogjuk, hogy sorozat t´ıpus´ u bemenet esetén például az elemhalmazokat tartalmazó mintakörnyezet zártságra nézve egyértelm˝ u, m´ıg a sorozatokat tartalmazó nem az. A zártságra nézve egyértelm˝ u mintakörnyezetekben a zárt minták jelent˝osége abban a´ll, hogy ezek ismeretében tetsz˝oleges mintáról el tudjuk dönteni, hogy gyakori-e, és ha igen, meg tudjuk pontosan mondani támogatottságát. Sz¨ ukségtelen tárolni az o¨sszes gyakori mintát, hiszen a zárt mintákból ezek egyértelm˝ uen meghatározhatók. Az m minta gyakori, ha része valamely gyakori zárt mintának, és m támogatottsága megegyezik a legkisebb olyan zárt minta támogatottságával, amelynek része m (ez ugyanis az m lezártja).

11.2.2. K´ enyszerek kezel´ ese Nem mindig érdekes az o¨sszes gyakori minta. El˝ofordulhat, hogy például a nagy méret˝ u, vagy bizonyos mintákat tartalmazó, vagy nem tartalmazó, stb. gyakori minták nem fontosak. ´ Altal´ anos´ıthatjuk a feladatot u ´ gy, hogy a felhasználó kényszereket, predikátumokat ad meg, és azokat a mintákat kell meghatároznunk, amelyek kielég´ıtik az o¨sszes kényszert. A feladat egyszer˝ u megoldása lenne, hogy – mint utófeldolgozás – a gyakori mintákat egyesével megvizsgálva törölnénk azokat, amelyek nem elég´ıtenek minden kényszert. Ez a megoldás nem t´ ul hatékony. Jobb lenne, ha a kényszereket minél mélyebbre” tudnánk helyezni ” a gyakori mintákat kinyer˝o algoritmusokban. Ez bizonyos kényszereknél megtehet˝o, másoknál nem. Nézz¨ uk, milyen osztályokba sorolhatjuk a kényszereket. Tulajdonképpen az is egy kényszer, hogy gyakori mintákat keres¨ unk. A gyakoriságra vonatkozó predikátum igaz, ha a minta gyakori, ellenkez˝o esetben hamis. Ez a predikátum antimonoton : 11.13. defin´ıci´ o. Legyen (H, ) egy részben rendezett halmaz. A p : H → {igaz, hamis} predik´ atum anti-monoton, amennyiben tetsz˝ oleges x ∈ H elem esetén, ha p(x) = igaz, akkor p(y) is igazat ad minden y x elemre. Ha a fenti defin´ıcióba y x helyett x y ´ırunk, akkor a monoton predikátumok defin´ıcióját kapjuk. Egy predikátum akkor és csak akkor monoton és anti-monoton egyben, ha a mintatér minden eleméhez igaz (vagy hamis) értéket rendel. Az ilyen predikátumot trivi´ alis predik´ atumnak h´ıvjuk. 11.14. defin´ıci´ o. Legyen (H, ) egy részben rendezett halmaz. A p : H → {igaz, hamis} predik´ atum prefix anti-monoton, amennyiben megadhat´ o a ≺-nek egy olyan 0 line´ aris kiterjesztése amire, ha p(m) = igaz, akkor p az m minden prefixén is igaz. 11.15. defin´ıci´ o. Legyen (H, ) egy részben rendezett halmaz. A p : H → {igaz, hamis} predik´ atum prefix monoton, amennyiben megadhat´ o a ≺-nek egy olyan 0 line´ aris kiterjesztése 0 amely, ha p(m) = igaz, és az m mint´ anak m prefixe. akkor p(m0 ) is igaz. Minden anti-monoton (monoton) predikátum egyben prefix anti-monoton (prefix monoton) is. 11.16. defin´ıci´ o. A p predik´ atum er˝osen a´talak´ıtható, amennyiben egyszerre prefix antimonoton és prefix monoton. A 11.1 a´brán látható a kényszerek kapcsolata [134]. Sejthetj¨ uk, hogy az anti-monoton predikátumok lesznek a legegyszer˝ ubben kezelhet˝ok. Ilyen anti-monoton predikátumok például a következ˝ok :


234

triviális

anti−monoton prefix anti−monoton

monoton prefix monoton

erõsen átalakítható

nem átalakítható 11.1. a´bra. A kényszerek (predikátumok) osztályozása – A minta mérete ne legyen nagyobb egy adott k¨ uszöbnél. – A mintának legyen része egy rögz´ıtett minta. Vásárlói szokások vizsgálatánál – amikor a vásárlói kosarakban gyakran el˝oforduló termékhalmazokat keress¨ uk – monoton kényszer például az, hogy a termékhalmazban lév˝o elemek profitjának o¨sszértéke (vagy minimuma, maximuma) legyen nagyobb egy adott konstansnál. Prefix monoton predikátum például, hogy a termékhalmazban található termékek a´rának a´tlaga nagyobb-e egy rögz´ıtett konstansnál. Rendezz¨ uk a termékeket a´ruk szerint növekv˝o sorrendbe. Ezen rendezés szerinti lexikografikus rendezés legyen a teljes rendezés. Nyilvánvaló, hogy ekkor a prefixben található termékek a´rai nagyobbak, mint a prefixben nem szerepl˝o termékei a´rai. Ez a kényszer prefix monoton, hiszen a prefix a legolcsóbb termékeket nem tar´ talmazza, ´ıgy a´tlaga nem lehet kisebb. Erdemes a´tgondolni, hogy ez a predikátum ráadásul er˝osen a´talak´ıtható.

11.2.3. T¨ obbsz¨ or¨ os t´ amogatotts´ agi k¨ usz¨ ob Vannak olyan alkalmazások, amelyekben a gyakoriság egyetlen, univerzális támogatottsági k¨ uszöb alapján történ˝o definiálása nem megfelel˝o. Ha például vásárlási szokások elemzésére gondolunk, akkor a nagy érték˝ u termékekkel kapcsolatos tudás legalább annyira fontos, mint a nagy mennyiségben értékes´ıtett, de kis haszonnal járó termékekkel kapcsolatos információ. Kézenfekv˝o megoldás, hogy annyira lecsökkentj¨ uk a támogatottsági k¨ uszöböt, hogy ezek a ritka elemek is gyakoriak legyenek, ami azzal a veszéllyel jár, hogy (ezen fontos elemek mellett) a mintatér nagy része gyakorivá válik. T¨ obbsz¨ or¨ os t´ amogatotts´ agi k¨ usz¨ obnél a mintatér minden eleméhez egyedileg megadhatunk egy támogatottsági k¨ uszöböt, azaz létezik egy min supp : : M → N f¨ uggvény, és az m akkor gyakori, ha supp(m) ≥ min supp(m). Többszörös támogatottsági k¨ uszöb esetén nem igaz a 11.5 tulajdonság. Hiába nagyobb ugyanis egy részminta támogatottsága, a részmintához tartozó támogatottsági k¨ uszöb még nagyobb lehet, és ´ıgy a részminta nem feltétlen¨ ul gyakori.


235

11.2.4. Dinamikus gyakori mintakinyer´ es Egyre népszer˝ ubb adatbányászati feladat a gyakori minták u ´ n. dinamikus kinyerése. Adott egy kiindulási B bemenet a hozzá tartozó gyakori mintákkal és támogatottságokkal és egy ´ másik B0 bemenet. Altal´ aban a B0 -t valami apró módos´ıtással kapjuk B-b˝ol. Feladat, hogy minél hatékonyabban találjuk meg a B0 -ben gyakori mintákat, azaz minél jobban használjuk fel a meglév˝o tudást (a B-ben gyakori mintákat). Gondolhatunk itt egy on-line a´ruházra, ahol kezdetben rendelkezés¨ unkre a´llnak az elm´ ult havi vásárlásokhoz tartozó gyakori termékhalmazok, miközben folyamatosan érkeznek az u ´ j vásárlások adatai. Hasznos, ha az u ´ jonnan felbukkanó gyakori mintákat minél hamarabb felfedezz¨ uk, anélk¨ ul, hogy a b˝ov´ıtett adatbázisban off-line módon lefuttatnánk egy gyakori mintákat kinyer˝o algoritmust.

11.3. Az algoritmusok jellemz˝ oi Helyes vagy helyesen m˝ uk¨ od˝ o jelz˝ovel illetj¨ uk azokat az algoritmusokat, amelyek nem hibáznak, tehát csak gyakori mintákat nyernek ki és azok támogatottságát jól határozzák meg. Teljes egy algoritmus, ha be lehet bizony´ıtani, hogy az o¨sszes gyakori mintát és támogatottságaikat meghatározza. Helyesen m˝ uköd˝o és teljes algoritmusokról fogunk beszélni, de szó lesz olyan algoritmusokról is, amelyekr˝ol csak azt tudjuk, hogy (bizonyos feltételezésekkel élve) kicsi annak a valósz´ın˝ usége, hogy nem talál meg minden gyakori mintát. Szélességi bej´ ar´ ast valós´ıtanak meg azok az algoritmusok1 , amelyek a legkisebb mintákból kiindulva egyre naFogszuvasod´ as ellen z¨ old tea ” gyobb méret˝ u gyakori mintákat nyernek ki. Egy ilyen al- T´ avol-keleti felmérések szerint goritmusra igaz, hogy az `-elem˝ u gyakori mintákat hama- azoknak az iskol´ asgyerekeknek, rabb találja meg, mint az `-nél nagyobb elem˝ u mintákat. akik napi egy csésze cukor nélk¨ uli Mélységi bej´ ar´ ast megvalós´ıtó algoritmusokra ez nem igaz ; z¨ old te´ at isznak, feleannyi odezek minél gyorsabban próbálnak eljutni a nem b˝ov´ıthet˝o vas foguk van, mint az a ´tlagnak.” mintához. Ha ez siker¨ ul, akkor egy u ´ jabb, nem b˝ov´ıthet˝o Forrás : http://www.terebess. mintát vesznek célba. hu/szorolapok/zoldtea.html A következ˝okben ismertetj¨ uk a három legfontosabb gyakori mintákat kinyer˝o módszert az APRIORI-t, Zaki módszerét és a mintanövel˝o módszert. Ennek a három algoritmusnak a szerepe abban a´ll, hogy szinte az o¨sszes többi algoritmus ezeknek a továbbfejlesztése, vagy ezen algoritmusok keveréke. Jelent˝oség¨ uket tovább növeli az a tény, hogy ezek a módszerek alkalmazhatóak akármilyen t´ıpus´ u mintákat keres¨ unk, legyenek azok elemhalmazok, sorozatok vagy gráfok. Nem pontos algoritmusokat adunk, hanem csak egy a´ltalános módszerle´ırást. Egyes lépéseket csak a minta t´ıpusának ismeretében lehet pontosan megadni.

11.4. Az APRIORI m´ odszer Az eredeti Apriori algoritmust gyakori elemhalmazok kinyerésére használták, és mint az AIS algoritmus [5] továbbfejlesztett változata adták közre. Rakesh Agrawal és Ramakrishnan Srikant [7] publikálták 1993-ban, de t˝ol¨ uk f¨ uggetlen¨ ul, szinte ugyanezt az algoritmust javasolta 1

A szélességi bej´ ar´ ast megval´ os´ıt´ o algoritmusokat szintenként halad´ o (levelwise) algoritmusoknak is h´ıvj´ ak.


236

Heikki Mannila, Hannu Toivonen és A. Inkeri Verkamo [114]-ben. Az 5 szerz˝o vég¨ ul egyes´ıtette a két ´ırást [6]. Kis módos´ıtással az algoritmust gyakori sorozatok kinyerésére is (APRIORIALL, GSP algoritmusok), s˝ot, alapelvét bármely t´ıpus´ u gyakori minta (epizód, fa stb.) keresésénél is alkalmazhatjuk. Az algoritmus rendk´ıv¨ ul egyszer˝ u, mégis gyors és kicsi a memóriaigénye. Talán emiatt a mai napig ez az algoritmus a legelterjedtebb és legismertebb gyakori mintakinyer˝o algoritmus. Az Apriori szélességi bejárást valós´ıt meg. Ez azt jelenti, hogy a legkisebb mintából kiindulva szintenként halad el˝ore a nagyobb méret˝ u gyakori minták meghatározásához. A következ˝o szinten (iterációban) az eggyel nagyobb méret˝ u mintákkal foglalkozik. Az algoritmusban központi szerepet töltenek be az u ´ n. jel¨ oltek. Jelöltnek h´ıvjuk egy adott iterációban azt a mintát, amelynek támogatottságát meghatározzuk, azaz, aminek figyelm¨ unket szentelj¨ uk. Hamis jel¨ olteknek h´ıvjuk azokat a jelölteket, amelyekr˝ol ki fog der¨ ulni, hogy ritka minták, elhanyagolt mint´ ak pedig azok a gyakori minták, amelyeket nem választunk jelöltnek (nem foglalkozunk vel¨ uk ,). Nyilvánvaló, hogy csak azokról a mintákról tudjuk eldönteni, hogy gyakoriak-e, amelyeknek meghatározzuk a támogatottságát, tehát amelyek jelöltek valamikor. Ezért elvárjuk az algoritmustól, hogy minden gyakori mintát felvegyen jelöltnek. A teljesség feltétele, hogy ne legyen elhanyagolt minta, a hatékonyság pedig annál jobb, minél kevesebb a hamis jelölt. A jelöltek definiálásánál a 11.5 tulajdonságot használjuk fel, ami ´ıgy szólt : Gyakori minta ” minden részmintája gyakori.”. Az a´ll´ıtást indirekten nézve elmondhatjuk, hogy egy minta biztosan nem gyakori, ha van ritka részmintája ! Ennek alapján ne legyen jelölt az a minta, amelynek van ritka részmintája. Az APRIORI algoritmus ezért ép´ıtkezik lentr˝ol. Egy adott iterációban pontosan tudjuk, hogy a részminták gyakoriak vagy sem ! Az algoritmus onnan kapta a nevét, hogy az `-elem˝ u jelölteket a bemeneti adat `-edik a´tolvasásának megkezdése el˝ott (a priori) a´ll´ıtja el˝o. Az algoritmus pszeudokódja a következ˝o a´brán látható. Kezdeti értékek beáll´ıtása után belép¨ unk egy ciklusba. A ciklus akkor ér véget, ha az `-elem˝ u jelöltek halmaza u ¨ res. A cikluson bel¨ ul el˝oször a t´ amogatotts´ ag meghat´ aroz´ as eljárást h´ıvjuk meg, amely a jelöltek támogatottságát határozza meg. Ha ismerj¨ uk a jelöltek támogatottságát, akkor ki tudjuk oa ´ll´ ıt´ as f¨ uggvény az `-elem˝ u gyakori mintákból választani bel˝ol¨ uk a gyakoriakat. A jel¨ olt el} (` + 1)-elem˝ u jelölteket a´ll´ıt el˝o. Az Apriori elvet adaptáló algoritmusok mind a fenti lépéseket követik. Természetesen a k¨ ulönböz˝o t´ıpus´ u mintáknál k¨ ulönböz˝o módon kell elvégezni a támogatottság-meghatározás, gyakoriak kiválogatása, jelöltek el˝oa´ll´ıtása lépéseket. Az algoritmus hatékonyságának egyik alapfeltétele, hogy a jelöltek elférjenek a memóriában. Ellenkez˝o esetben ugyanis rengeteg id˝o menne el az olyan I/O m˝ uveletekkel, amelynek során a jelölteket a háttér és a memória között ide-oda másolgatjuk. A fenti pszeudokód az eredeti Apriori egyszer˝ us´ıtett változatát ´ırja le. Valójában ugyanis addig a´ll´ıtjuk el˝o az `-elem˝ u jelölteket, am´ıg azok elférnek a memóriában. Ha elfogy a memória, akkor ` növelése nélk¨ ul folytatjuk az algoritmust, majd a következ˝o iterációban ott folytatjuk a jelöltek el˝oa´ll´ıtását, ahol abbahagytuk.

11.4.1. Jel¨ oltek el˝ o´ all´ıt´ asa Az `-elem˝ u jelöltek el˝oa´ll´ıtásának egyszer˝ u módja az, hogy vessz¨ uk az o¨sszes `-elem˝ u mintát, és azokat választjuk jelöltnek, amelyekre teljes¨ ul, hogy minden részmintájuk gyako-


237

Algorithm 9 Az Apriori m´ odszer Require: B : bementei adat min supp : támogatottsági k¨ uszöb `⇐0 J` ⇐ { az u ¨ res minta } {J` : Az `-elem˝ u jelöltek} while |J` | 6= 0 do t´ amogatotts´ ag meghat´ aroz´ as(B, J` ) for all j ∈ J` do if supp(j) ≥ min supp then GY` ⇐ GY` ∪ {j} end if end for J`+1 ⇐ jel¨ olt el} oa ´ll´ ıt´ as(GY` ) GY ⇐ GY ∪ GY` ` ⇐ `+1 end while return GY : gyakori minták ri. Sz¨ ukségtelen az o¨sszes részmintát ellen˝orizni, ugyanis a támogatottság anti-monotonitásából következik az, hogy ha az o¨sszes (`−1)-elem˝ u részminta gyakori, akkor az o¨sszes valódi részminta is gyakori. Ez a módszer azonban nem t´ ul hatékony, vagy u ´ gy is megfogalmazhatnánk, hogy t´ ul sok felesleges munkát végez, t´ ul sok olyan mintát vizsgál meg, amelyek biztosan nem gyakoriak. H´ıvjuk potenci´ alis jel¨ olteknek azon mintákat, amelyeket el˝oa´ll´ıtunk, majd ellen˝orizz¨ uk, hogy részmintáik gyakoriak-e. Ha egy potenciális minta a´tesik a teszten, akkor jelölté válik. Tudjuk, hogy ha egy minta jelölt lesz, akkor minden (` − 1)-elem˝ u részmintája gyakori, tehát célszer˝ u az (` − 1)-elem˝ u gyakori mintákból kiindulni. Egy egyszer˝ u megoldás lenne, ha sorra vennénk az (` − 1)-elem˝ u gyakori minták minimális valódi fels˝o korlátait, mint potenciális jelölteket. Még jobb megoldás, ha a (` − 1)-elem˝ u gyakori mintapároknak vessz¨ uk a minimális valódi fels˝o korlátait. Ekkor ugyanis csak olyan potenciális jelöltet a´ll´ıtunk el˝o, amelynek van két (` − 1)-elem˝ u gyakori részmintája. A minimális valódi fels˝o korlátot egy illesztési m˝ uvelettel fogjuk el˝oa´ll´ıtani. A két gyakori mintát a potenciális jelölt generátorainak h´ıvjuk. Az illesztési m˝ uveletet a ⊗-el fogunk jelölni. Akkor illeszt¨ unk két mintát, ha van (` − 2)-elem˝ u közös részmintájuk. Ezt a részmintát magnak (core) fogjuk h´ıvni. Ha az el˝oa´ll´ıtás módja olyan, hogy nem a´ll´ıthatjuk el˝o ugyanazt a potenciális jelöltet két k¨ ulönböz˝o módon, akkor ezt a jelölt-el˝oa´ll´ıtást ismétlés nélk¨ ulinek nevezz¨ uk. Nézz¨ unk egy példát. Legyenek a mintatér elemei elemhalmazok. Akkor a´ll´ıtsuk el˝o két (` − 1)-elem˝ u gyakori elemhalmaznak a minimális valódi korlátját, ha metszet¨ uk (` − 2)-elem˝ u. A minimális valódi korlátok halmaza csak egy elemet fog tartalmazni, a két halmaz unióját. Ez a jelölt-el˝oa´ll´ıtás nem ismétlés nélk¨ uli, ugyanis például az ({A, B}, {A, C}) párnak ugyanaz a legkisebb fels˝o korlátja, mint az ({A, B}, {B, C}) párnak. Az ismétlés nélk¨ uli jelölt-el˝oa´ll´ıtást mindig a minta elemein értelmezett teljes rendezés fogja garantálni, ami a rendezés egy lineáris kiterjesztése lesz. A teljes rendezésnek megfelel˝oen végigmegy¨ unk az (`−1)-elem˝ u gyakori mintákon és megnézz¨ uk, hogy mely sorban utána követ-


238

kez˝o (` − 1)-elem˝ u gyakori mintával illeszthet˝o, illetve az illesztésként kapott potenciális jelölt minden (` − 1)-elem˝ u részmintája gyakori-e. Sok esetben a ismétlés nélk¨ uliségnek elégséges feltétele az lesz, hogy a két gyakori minta (` − 2)-elem˝ u prefixeik megegyezzenek. A minta t´ıpusának ismeretében a teljességet (minden minimális valódi fels˝o korlátbeli elemet el˝oa´ll´ıtunk) és az ismétlés nélk¨ uliséget könny˝ u lesz bizony´ıtani. Algorithm 10 Jel¨ oltek el} oa ´ll´ ıt´ asa Require: GY`−1 : (` − 1)-elem˝ u gyakori minták

for all gy ∈ GY`−1 do for all gy 0 ∈ GY`−1 , gy gy 0 do if gy és gy 0 illeszthet˝o then Jˆ ⇐ minim´ alis val´ odi fels} o korl´ at(gy, gy 0) {Jˆ: potenciális jelöltek halmaza} for all ˆj ∈ Jˆ do if minden r´ eszhalmaz gyakori(ˆj, GY`−1 ) then ˆ J` ⇐ j end if end for end if end for end for return J` : `-elem˝ u jelöltek

11.4.2. Z´ art mint´ ak kinyer´ ese, az APRIORI-CLOSE algoritmus A zárt minták jelent˝oségét a 11.2.1 részben már tárgyaltuk. Itt most két feladat megoldásával foglalkozunk. Megnézz¨ uk, hogy az o¨sszes gyakori mintából hogyan tudjuk el˝oa´ll´ıtani a zártakat, illetve bemutatjuk az APRIORI-CLOSE [131–133] algoritmust, amely már eleve csak a zárt mintákat határozza meg. Mindkét módszerhez az alábbi észrevételt használjuk fel : 11.17. ´ eszrev´ etel. Ha az m minta nem z´ art, akkor van olyan m-et tartalmaz´ o eggyel nagyobb méret˝ u minta, amelynek t´ amogatotts´ aga megegyezik m t´ amogatotts´ ag´ aval. Tegy¨ uk fel, hogy a legnagyobb méret˝ u gyakori minta mérete k. A GY k elemei zártak. Egy egyszer˝ u algoritmus menete a következ˝o : Nézz¨ uk sorban GYk−1 , GYk−2 , . . . , GY0 elemeit. Ha m ∈ GY` -hez találunk olyan m0 ∈ GY`+1 elemet, amelynek támogatottsága megegyezik m támogatottságával, akkor m nem zárt. Ha nincs ilyen tulajdonság´ u m0 , akkor m zárt. Az APRIORI-CLOSE menete teljes mértékben megegyezik az Apriori algoritmus menetével. Az egyetlen k¨ ulönbség, hogy az `-elem˝ u gyakori minták meghatározása után törli az (` − 1)-elem˝ u nem zártakat. Miután eldöntötte, hogy az `-elem˝ u m minta gyakori, megvizsgálja az o¨sszes (`−1)-elem˝ u részmintáját m-nek. Amennyiben van olyan részhalmaz, aminek támogatottsága egyenl˝o m támogatottságával, akkor ez a részminta nem zárt, ellenkez˝o esetben zárt.


239

11.5. Sorozat t´ıpus´ u bemenet A legáltalánosabb eset le´ırásánál nem tett¨ unk semmi megkötést a bemenet t´ıpusára és a támogatottsági f¨ uggvényre vonatkozóan. Az esetek többsége azonban egy speciális családba tartozik. Ennek a problémacsaládnak a jellemz˝oje, hogy a bemenet egy véges sorozat, és a támogatottságot azon elemek száma adja, amelyek valamilyen módon illeszkednek a mintára 2 . Az illeszkedést egy illeszkedési predikátummal adhatjuk meg, melynek értelmezési tartománya a mintatér. bemenet : S = hs1 , s2 , . . . , sn i A támogatottság defin´ıciója megköveteli, hogy ha egy minta illeszkedik egy sorozatelemre, akkor minden részmintája is illeszkedjen. A legtöbb esetben a sorozat elemei megegyeznek a mintatér elemeivel és az m minta akkor illeszkedik egy sorozatelemre, ha annak m a részmintája. A szakirodalomban igen elterjedt a sorozatok helyett a halmazokkal le´ırt bemenet, ahol minden egyes elem egyedi azonos´ıtóval van ellátva. A jegyzetben a sorozatos le´ırást fogjuk használni, akinek ez szokatlan, az tekintse azonos´ıtóknak a sorozat elemeinek sorszámát. Az m minta gyakoris´ ag´ at (jelölésben : f reqS (m), ami a frequency szóra utal) az m támogatottsága és az S hosszának hányadosával definiáljuk. A gyakorisági k¨ uszöböt ( min|S|supp ) uk. Az értelmesen megválasztott gyakorisági k¨ uszöb mindig következetesen min f req-el jelölj¨ 0 és 1 között van. Az esetek többségében támogatottsági k¨ uszöb helyett gyakorisági k¨ uszöböt adnak meg. Sorozat t´ıpus´ u bemenet esetén mer¨ ul fel azon elvárás az algoritmusokkal szemben, hogy ne legyen érzékeny a bemenet homogenit´ as´ ara. Intuit´ıve akkor homogén egy bemenet, ha nincsenek olyan részei, amelyben valamely minta gyakorisága nagyon eltér a teljes bemenet alapján szám´ıtott gyakoriságától. Sok alkalmazásban ez a feltétel nem a´ll fenn, ´ıgy azokat az algoritmusokat kedvelj¨ uk, amelyek hatékonysága f¨ uggetlen a bemenet homogenitásától. Könny˝ u a´tgondolni, hogy az Apriori algoritmus rendelkezik ezzel a tulajdonsággal.

11.5.1. Apriori Amennyiben a támogatottságot illeszkedési predikátum alapján definiáljuk, akkor az Apriori algoritmus a bemeneti elemeken egyesével végigmegy és növeli azon jelöltek számlálóját, amelyek illeszkednek az éppen aktuális bemeneti elemre. Azonos bemeneti elemeknél ez a m˝ uvelet ugyanazt fogja csinálni ezért célszer˝ u az azonos bemeneti elemeket o¨sszegy˝ ujteni és csak egyszer megh´ıvni az eljárást. A bemenet azonban t´ ul nagy lehet, ezért ezt gyors´ıtási lépést csak akkor szokás elvégezni, amikor már rendelkezés¨ unkre a´llnak az egyelem˝ u gyakori minták. Ezek alapján további sz˝ uréseket lehet végezni. Például elemhalmaz/elemsorozat t´ıpus´ u bemeneti elemeknél törölj¨ uk a halmazból/sorozatból a ritka elemeket. Ez duplán hasznos, hiszen csökkentj¨ uk a memóriafogyasztást és mivel az azonos sz˝ urt elemek száma nagyobb lehet, mint az azonos elemek száma a támogatottságok meghatározása még kevesebb id˝obe fog telni. Vannak olyan minták, amelyeknél a illeszkedés eldöntése drága m˝ uvelet. Például gráf t´ıpus´ u mintáknál az illeszkedés meghatározásához egy részgráf izomorfia feladatot kell eldönteni, ami bizony´ıtottan NP-teljes. Ilyen mintáknál hasznos, ha minden jelöltnél rendelkezés¨ unkre a´llnak 2

Ha csak a matematikai defin´ıci´ okat tekintj¨ uk, akkor t¨ orekedhett¨ unk volna a legegyszer˝ ubb le´ır´ asra és haszn´ alhattunk volna sorozatok helyett multihalmazokat. A val´ os´ agban azonban a bemenet tényleg sorozatok form´ aj´ aban adott, ´ıgy nem tehetj¨ uk fel, hogy az azonos bemeneti elemek o ¨ssze vannak vonva.


240

azon bemeneti elemek sorszámai, amelyekre illeszkednek a generátorok (nevezz¨ uk ezt a halmazt illeszkedési halmaznak). Az illeszkedési predikátum anti-monoton tulajdonságából következik, hogy a jelölt csak azon bemeneti elemekre illeszkedhet, amelyekre generátoraik is illeszkednek. A támogatottság meghatározása során a jelöltek illeszkedési halmazát is meg kell határoznunk hiszen a jelöltek lesznek a generátorok a következ˝o iterációban. Természetesen a generátorok illeszkedési listáit törölhetj¨ uk miután meghatároztuk a jelöltek illeszkedési listáit. DIC A DIC (Dynamic Itemset Counting) algoritmus [28] az Apriori továbbfejlesztése. Gyakori elemhalmazok kinyerésére javasolták, de minden olyan gyakori mintákat keres˝o feladatban alkalmazható, amelyben a bemenet sorozat t´ıpus´ u, és a támogatottságot illeszkedési predikátum alapján definiáljuk. Az algoritmus nem tisztán szélességi bejárást valós´ıt meg ; a k¨ ulönböz˝o elemszám´ u minták egy¨ utt vannak jelen a jelöltek között. Ha k a legnagyobb gyakori minta mérete, akkor várhatóan (k+)-nél kevesebbszer, de legrosszabb esetben (k + 1)-szer kell végigolvasni a bemenetet. A DIC algoritmusban – szemben az APRIORI-val – nem válik szét az egyes iterációkban a jelöltek el˝oa´ll´ıtása, a támogatottságok meghatározása és a ritka minták törlése. Miközben vessz¨ uk a bemeneti elemeket és határozzuk meg a jelöltek támogatottságát, u ´ j jelölteket vehet¨ unk fel és törölhet¨ unk (azaz dinamikus elemszámlálást alkalmazunk, ahogyan erre az algoritmus neve is utal). Akkor vesz¨ unk fel egy mintát a jelöltek közé, ha minden valódi részmintájáról kider¨ ult, hogy gyakori. Akárhol vesz¨ unk fel egy jelöltet, egy iterációval kés˝obb ugyanott, ahol felvett¨ uk, töröln¨ unk kell a jelöltek köz¨ ul, hiszen a pontos támogatottság meghatározásához a teljes bemenetet a´t kell nézn¨ unk. Ha a törölt jelölt gyakori, akkor természetesen a mintát felvessz¨ uk a gyakori minták halmazába. Minden jelöl esetén tárolnunk kell, hogy hányadik bemeneti elemnél lett jelölt. A kiindulási a´llapotban minden egyelem˝ u minta jelölt és akkor ér véget az algoritmus, amikor nincs egyetlen jelölt sem. Elemhalmazok példáját nézve, ha az A és B elemek olyan sokszor fordulnak el˝o, hogy támogatottságuk, már a bemenet egyharmadának a´tolvasása után eléri min supp-ot, akkor az {A, B} két elem˝ u halmaz már ekkor jelölt lesz, és el˝ofordulásait el kell kezdeni o¨sszeszámolni. A bemenet végigolvasása után ismét az els˝o bemeneti elemre lép¨ unk és az egyelem˝ u jelöltek törlése után folytatjuk a jelöltek támogatottságának meghatározását. Az A, B jelöltet a bemenet egyharmadánál törölj¨ uk a jelöltek köz¨ ul. Ha nincs más jelölt, akkor az algoritmus véget ér. Látható, hogy ekkor a DIC algoritmus 1+1/3-szor olvassa végig a bemenetet, amit az Apriori kétszer tesz meg. Az algoritmus hátránya, hogy minden bemeneti elemnél meg kell vizsgálni, hogy vannak-e törlend˝o jelöltek. Ez költséges m˝ uvelet ezért célszer˝ u a´llomásokat” létrehozni. Például minden ” ezredik bemeneti elem lehet egy a´llomás. Csak az a´llomásoknál nézz¨ uk meg, hogy egy jelölt támogatottsága elérte-e min supp-ot, ´ıgy csak a´llomásnál vesz¨ unk fel, illetve törl¨ unk jelölteket. A DIC algoritmus, szemben az APRIORI-val, érzékeny az adatok homogenitására. Amennyiben egy minta a felszállóhelyét˝ol nagyon távol koncentrálva gyakori, akkor az o¨sszes, o˝t részmintaként tartalmazó minta is csak sokára lesz jelölt. Ekkor a DIC hatékonysága rosszabb az Apriori algoritmusénál, hiszen ugyanannyiszor járja végig a bemenetet, mint az APRIORI, de eközben olyan munkát is végez, amit az Apriori nem (minden a´llomásnál ellen˝orzi, hogy ¨ mely jelölteket kell törölni). Osszess´ egében elmondhatjuk, hogy a DIC csak abban az esetben lesz gyorsabb az APRIORI-nál, ha a bemenet olyan nagy, hogy a futási id˝oben nagy szerepet


241

játszik a bemenet beolvasása. A mai memóriakapacitások mellett ez ritkán a´ll fenn. A következ˝okben olyan algoritmusokat ismertet¨ unk, amelyek sorozat t´ıpus´ u bemenet és illeszkedés alap´ u támogatottság esetén tudják meghatározni a gyakori mintákat.

11.5.2. Zaki m´ odszere Zaki módszere [195] szintén jelölteket használ a keresési tér bejárásához, de a bejárás t´ıpusa – szemben az APRIORI-val – mélységi. A MK = (M, ) mintakörnyezet esetén csak akkor használható, ha tudjuk definiálni a -nek egy lineáris kiterjesztését, ugyanis az algoritmus ép´ıt˝oelemei a prefixek. A prefix alapján definiálhatunk egy ekvivalencia relációt. Adott ` esetén két minta ekvivalens, ha `-elem˝ u prefix¨ uk megegyezik. A P prefix˝ u minták halmazát [P ]-vel jelölj¨ uk. A prefixek seg´ıtségével a minták halmazát diszjunkt részekre osztjuk, azaz a feladatot kisebb részfeladatokra vezetj¨ uk vissza. Nézz¨ uk például az elemhalmazok esetét. Legyen I = {A, B, C, D} és M = (2 I , ⊆), akkor I 0 ≺ 0 I 00 , ha |I 0 | < |I 00 | vagy, ha |I 0 | = |I 00 | és I 0 lexikografikusan megel˝ozi I 00 -t. Például {D} ≺ ≺ 0 {A, C} és {A, B, D} ≺ 0 {B, C, D}. Amennyiben ` = 1, akkor például a {A, B}, {A, C}, {A, D} egy ekvivalencia osztályba tartozik, aminek például a {B,C} nem eleme. A prefix mellett Zaki módszerének központi fogalma az illeszkedési lista. Egy mintához tartozó illeszkedési lista tárolja a minta illeszkedéseit. Az illeszkedési lista két fontos tulajdonsággal b´ır : I. Az illeszkedési listából könnyen megkapható a támogatottság. II. Egy jelölt illeszkedési listája megkapható a generátorainak illeszkedési listáiból. Például elemhalmaz t´ıpus´ u minták esetében (ha az illeszkedést a tartalmazási reláció alapján definiáljuk) egy elemhalmaz illeszkedési listája egy olyan lista lesz, amely a bemeneti sorozat azon elemeinek sorszámát tárolja, amelyeknek része az adott elemhalmaz. Például h{A, D}, {A, C}, {A, B, C, D}, {B}, {A, D}, {A, B, D}, {D}i bemenet esetén az {A, C} illeszkedési listája : h{1,2}i. Zaki algoritmusának pszeudokódja az alábbi. Algorithm 11 Zaki m´ odszere Require: B : bementei adat uszöb min supp : támogatottsági k¨ J ⇐ 1 elem˝ u minták halmaza{J : jelöltek} ILL(J) ⇐ ILL fel´ ep´ ıt´ es(B, J) {ILL(J) : jelöltek illeszkedési listája} for all j ∈ J do if |ILL(j)| ≥ min supp then GY1 ⇐ GY1 ∪ j end if end for zaki seg´ ed(GY, ILL(GY ), min supp) {GY = [0]+ } return GY : gyakori minták


242

El˝oször felép´ıtj¨ uk az egyelem˝ u minták illeszkedési listáit. Ezek alapján meghatározzuk a gyakori mintákat. A kés˝obbiekben nem használjuk a bemenetet csak az illeszkedési listákat, ezekb˝ol ugyanis a támogatottságok egyértelm˝ uen meghatározhatók. Az algoritmus lényege a zaki seg´ ed rekurziós eljárás, amelynek pszeudokódja a ?? a´brán látható. Algorithm 12 zaki seg´ ed elj´ ar´ as + Require: [P ] : P prefix˝ u, P -nél eggyel nagyobb gyakori minták ILL[P ]+ : [P ]+ -beli minták illeszkedési listája min supp : támogatottsági k¨ uszöb for all m ∈ [P ]+ do for all m0 ∈ [P ]+ , m m0 do J,ILL(J) ⇐ minim´ alis val´ odi fels} o korl´ at(m, m 0 , ILL(m, m0 )) {J : jelöltek,ILL(J) : jelöltek illeszkedési listája} for all j ∈ J do if |ILL(j)| ≥ min supp then GY 0 ⇐ GY 0 ∪ {j} end if end for end for zaki seg´ ed(GY 0 , ILL(GY 0 ), min supp) GY ⇐ GY ∪ GY 0 end for return GY : P prefix˝ u o¨sszes gyakori minta A Zaki féle jelölt el˝oa´ll´ıtásnak két feladata van. Természetesen az egyik a jelöltek el˝oa´ll´ıtása, de emellett az illeszkedési listákat is el˝oa´lltja. A jelölt-el˝oa´ll´ıtás megegyezik az Apriori jelölt el˝oa´ll´ıtásának els˝o lépésével (potenciális jelöltek el˝oa´ll´ıtása). A második lépést nem is tudnánk elvégezni, ugyanis nem a´ll rendelkezés¨ unkre az o¨sszes részminta, ´ıgy nem is tudjuk ellen˝orizni, hogy az o¨sszes részminta gyakori-e. Nézz¨ unk erre egy gyors példát. Amennyiben a mintákat elemhalmazok formájában keress¨ uk, akkor az Apriori és Zaki módszere is el˝oször meghatározza a gyakori elemeket. Legyenek ezek az A, C, D, G, M elemek. Az Apriori ezek után el˝oa´ll´ıtana 52 darab jelöltet, majd meghatározná támogatottságaikat. Zaki ehelyett csak az A prefix˝ u kételem˝ u halmazok támogatottságát vizsgálja. Ha ezek köz¨ ul gyakori például az {A, C}, {A, G}, akkor a következ˝okben az {A,C,G}-t nézi, és mivel további jelöltet nem tud el˝oa´ll´ıtani, ugrik a C prefix˝ u elemhalmazok vizsgálatára, és ´ıgy tovább. Látnunk kell, hogy Zaki módszere csak több jelöltet a´ll´ıthat el˝o, mint az APRIORI. A mélységi bejárás miatt ugyanis egy jelölt el˝oa´ll´ıtásánál nem a´ll rendelkezés¨ unkre az o¨sszes részminta. Az el˝oz˝o példa esetében például az {A,C,G} támogatottságát hamarabb vizsgálja, mint a {C,G} halmazét, holott ez utóbbi akár ritka is lehet. Ebben a tekintetben tehát Zaki módszere rosszabb az APRIORI-nál, ugyanis több hamis jelöltet a´ll´ıt el˝o. Zaki módszerének igazi ereje a jelöltek támogatottságának meghatározásában van. A minták illeszkedési listáinak el˝oa´ll´ıtása egy rendk´ıv¨ ul egyszer˝ u és nagyon gyors m˝ uvelet lesz. Emellett ahogy haladunk egyre mélyebbre a mélységi bejárás során, u ´ gy csökken az illeszkedési listák hossza, és ezzel a támogatottság meghatározásának ideje is.


243

A bemenet sz˝ urésének o¨tletét az Apriori algoritmusnál is els¨ uthetj¨ uk, de nem ilyen mértékben. Ha ismerj¨ uk a gyakori egyelem˝ u mintákat, akkor törölhetj¨ uk azon sorozatelemeket, amelyek nem illeszkednek egyetlen gyakori egyelem˝ u mintára sem. S˝ot ezt a gondolatot a´ltalános´ıthatjuk is : az `-edik lépésben törölhetj¨ uk a bemeneti sorozat azon elemeit, amelyek nem illeszkednek egyetlen (`−1)-elem˝ u mintára sem. Ez a fajta bemeneti tér sz˝ uk´ıtés azonban nem lesz olyan hatékony, mint amilyen a Zaki módszerében. Ott ugyanis egyszerre csak 1 prefixet vizsgálunk, az APRIORI-nál azonban a´ltalában sok olyan minta van, aminek csak az u ¨ res minta a közös részmintája. ¨ Osszess´ egében tehát az Apriori kevesebb jelöltet generál, mint Zaki módszere, de a jelöltek ´ támogatottságának meghatározása több id˝ot vesz igénybe. Altal´ anosságban nem lehet megmondani, hogy melyik a jobb módszer. Egyes adatbázisok esetén az APRIORI, másoknál a Zaki módszer. S˝ot könnyen lehet olyan példát mutatni, amikor az egyik algoritmus nagyságrendileg több id˝o tölt a feladat megoldásával, mint a másik. Zaki módszerénél könny˝ u kezelni a anti-monoton és a prefix anti-monoton kényszereket. A nem gyakori minták törlésekor törölj¨ uk azokat a mintákat is, amelyek nem elég´ıtenek ki minden anti-monoton kényszert. A prefix anti-monoton kényszereket a jelöltek el˝oa´ll´ıtása után kell figyelembe venn¨ unk : törölhetj¨ uk azokat a generátorokat, amelyekre nem teljes¨ ul az antimonoton kényszer. A zaki seg´ ed eljárásból következik, hogy ilyen m mintát legfeljebb olyan jelölt el˝oa´ll´ıtásánál fogunk felhasználni, aminek m a prefixe. Természetesen itt is bajban vagyunk, ha több prefix anti-monoton kényszer van adva, hiszen ezek ≺-nek k¨ ulönböz˝o lineáris kiterjesztéseit használhatják.

11.5.3. Mintan¨ ovel˝ o algoritmusok A mintanövel˝o (pattern growth) algoritmus olyan mintakeresés esetén alkalmazható, amikor a bemenet minták sorozataként van megadva, és az illeszkedést a tartalmazás alapján definiáljuk, értelmezhet˝o a prefix, és a minták egyértelm˝ uen n¨ ovelhet˝ ok. Például a növelés m˝ uvelet halmazok esetén az unió, sorozatok esetében a konkatenáció képzésének felel meg (és ebb˝ol látszik, hogy a növelés m˝ uvelete nem feltétlen¨ ul kommutat´ıv). 11.18. defin´ıci´ o. Az MK=(M, ) mintak¨ ornyezet mint´ ai egyértelm˝ uen növelhet˝ok, ha létezik egy olyan + n¨ ovel˝ o” m˝ uvelet, amellyel az M félcsoportot alkot. ” A növelés inverze a cs¨ okkentés, jelölése : -. Az m−m0 m˝ uvelet eredménye az az m00 minta, amivel m0 -t növelve m-et kapjuk. A mintanövel˝o módszerek csak egyelem˝ u jelölteket használnak, és emellett a bemeneten végeznek olyan m˝ uveleteket, amelyek eredményeként megkapjuk a gyakori mintákat. A két m˝ uvelet a sz˝ urés és a vet´ıtés, amelyek az eredeti S bemenetb˝ol egy kisebb” S0 bemenetet ” a´ll´ıtanak el˝o. A sz˝ urés a gyakori egyelem˝ u mintákat használja és olyan S 0 bemenetet a´ll´ıt el˝o amelyben a gyakori minták megegyeznek az S-beli gyakori mintákkal. Az S bemenet m mintára vet´ıtése (jelölésben S|m) pedig olyan S0 bemenetet a´ll´ıt el˝o, amelyre igaz, hogy ha m-et az S0 beli gyakori mintákkal növelj¨ uk, akkor megkapjuk az S-beli, m-et tartalmazó gyakori mintákat. A m-et tartalmazó gyakori minták meghatározásához csak azokra a bemeneti elemekre van sz¨ ukség, amelyekre illeszkedik m, ezért a vet´ıtés els˝o lépése mindig ezen elemek meghatározása lesz. Ha például a bemenet elemei elemhalmazok és akkor illeszkedik egy elemhalmaz a bemenet egy elemére, ha annak része, akkor sz˝ urés m˝ uvelet az lesz, hogy a bemeneti


244

elemekb˝ol törölj¨ uk a ritka elemeket. Nyilvánvaló, hogy ritka elem nem játszik szerepet a gyakori elemek meghatározásában. A bemenet X halmazra vet´ıtését megkapjuk, ha törölj¨ uk azon bemeneti elemeket, amelyeknek nem része X, majd a kapott elemekb˝ol törölj¨ uk X-et. Legyen S = h{A, C, F }, {B, G}, {A, C, D}, {A, C}, {B, C}, {C, D, E}, {A, B, C}i ˜ amelynek sz˝ urése 2-es támogatottsági k¨ uszöb esetén az S = ˜ = h{A, C}, {B}, {A, C, D}, {A, C}, {B, C}, {C, D}, {A, B, C}i sorozat és S|{A, C} = = h{D}, {B}i. A mintanövel˝o módszer rendk´ıv¨ ul egyszer˝ u, tulajdonképpen a feladatot rekurz´ıvan kisebb részfeladat megoldására vezeti vissza. A rekurziós eljárást a bemenet sz˝ urésével és k¨ ulönböz˝o mintákra vett vet´ıtéseivel h´ıvja meg, miközben a mintateret is csökkenti. Jelölj¨ uk M \ m-el ¯ azt a mintateret, amit u ´ gy kapunk M-b˝ol, hogy törölj¨ uk azon mintákat, amelynek m részmintája (m). ¯ Ha az m minta támogatottsága S-ben suppS (m) és az m0 ∈ M\ m ¯ támogatottsága S|m-ben suppS|m (m0 ), akkor m+m0 támogatottsága is suppS|m (m0 ). A módszer pszeudokódja a ?? a´brán látható. Algorithm 13 Mintan¨ ovel} o m´ odszer Require: B : bemeneti adat min supp : támogatottsági k¨ uszöb M : mintatér

J1 ⇐1-elem˝ u minták {J1 : egyelem˝ u jelöltek} t´ amogatotts´ ag meghat´ aroz´ as(B, J1 ) GY1 ⇐ gyakoriak kiv´ alogat´ asa(J1 , min supp) ˜ B ⇐ sz} ur´ es(B)

for all gy ∈ GY 1 do ˜ GY 0 ⇐ mintan¨ ovel} o m´ odszer(B|gy, min supp, M \ gy) ˜ 0 0 for all gy ∈ GY do GY ⇐ GY ∪ {gy + gy 0} end for end for return GY : gyakori minták

A módszer el˝onye abban rejlik, hogy sz˝ urést, vet´ıtést és az egyelem˝ u jelöltek támogatottságát hatékonyan tudjuk megvalós´ıtani. A hatékonyság növelése érdekében a vet´ıtett tranzakciók azonos elemeit csak egyszer tároljuk, a´ltalában egy fa-szer˝ u strukt´ urában. Az anti-monoton kényszerek kezelése a mintanövel˝o algoritmusok esetében is egyszer˝ u. Ne folytassuk a rekurziót, ha a minta nem elég´ıt ki minden anti-monoton kényszert. Az egyes mintat´ıpusok esetében u ´ gy fogjuk megadni a növelés m˝ uveletet, hogy tetsz˝oleges minta csökkentése a minta prefixét fogja adni. Ez azt eredményezi, hogy törölhetj¨ uk azt a mintát, amelyik nem elég´ıti ki a prefix anti-monoton kényszert, és leállhatunk a rekurzióval. Hasonlóan az Apriori és a Zaki módszeréhez itt sincs mód több prefix anti-monoton kényszer hatékony kezelésére. Az algoritmus menetét ugyanis egyértelm˝ uen megadja a növelés m˝ uvelet, amit a prefix anti-monoton kényszerben felhasznált teljes rendezés alapján definiálunk.


245

11.5.4. K´ etl´ epcs˝ os technik´ ak A szélességi bejárást megvalós´ıtó algoritmusok az adatbázist legalább annyiszor olvassák végig, amekkora a legnagyobb gyakori minta mérete. El˝ofordulhatnak olyan alkalmazások, amelyeknél az adatbázis elérése drága m˝ uvelet. Ilyenre lehet példa, amikor az adatbázis egy elosztott hálózatban található, vagy lass´ u elérés˝ u háttértárolón. A kétlépcs˝os algoritmusok [148, 173] a teljes adatbázist legfeljebb kétszer olvassák végig. I/O tekintetében tehát legy˝ozik például az Apriori algoritmust, azonban olyan futási környezetben, ahol a futási id˝ot nem szinte kizárólag az I/O m˝ uveletek határozzák meg (ha a bemenet elfér a memóriában akkor ez a helyzet a´ll fenn), az Apriori algoritmus gyorsabban ad eredményt. Naiv mintav´ etelez˝ o algoritmus Olvassuk be a teljes bemenet egy részét a memóriába (a rész nagyságára nézve lásd 85.oldal). Erre a kis részre futtassuk le az Apriori algoritmust az eredeti min f req gyakorisági k¨ uszöbbel. A kis részben megtalált gyakori minták lesznek a jelöltek a második fázisban, amelynek során a jelöltek támogatottságát a teljes adatbázisban meghatározzuk. Ezáltal ki tudjuk sz˝ urni azokat a mintákat, amelyek ritkák, de a kis részben gyakoriak. El˝ofordulhat azonban a ford´ıtott helyzet, azaz a kis adatbázisban egy minta ritka, viszont globálisan gyakori, tehát nem ker¨ ul a jelöltek közé, és ´ıgy nem is találhatjuk azt gyakorinak. Jav´ıthatunk a helyzeten, ha csökkentj¨ uk a kis részben a gyakorisági k¨ uszöböt, amivel növelj¨ uk a jelöltek számát, de csökkentj¨ uk annak veszélyét, hogy egy gyakori mintát ritkának találunk. Ennek az egyszer˝ u algoritmusnak két hátránya van. Egyrészt nem ad arra garanciát, hogy minden gyakori mintát megtalálunk (azaz nem teljes), másrészt a gyakorisági korlát csökkentése miatt a hamis jelöltek száma t´ ulzottan nagy lehet. A fenti két problémát k¨ uszöböli ki a part´ıciós, illetve a Toivonen-féle algoritmus. Mivel a kétlépcs˝os algoritmusok egy kis rész kiválasztásán alapulnak, ´ıgy nagyon érzékenyek az adatbázis homogenitására. Gondoljunk itt a szezonális elemekre, amelyek lokálisan gyakoriak, de globálisan ritkák. Például a keszty˝ uk eladása tél elején nagy, de mégis a keszty˝ u o¨nmagában ritka elem. Amennyiben a kis rész kiválasztása a bemenet egy véletlen pontjáról történ˝o szekvenciális olvasást jelentene, akkor az nagy eséllyel sok hamis és hiányzó jelöltet eredményezne. Part´ıci´ os algoritmus A part´ıciós algoritmus [148] kétszer olvassa végig a teljes adatbázist. Páronként diszjunkt részekre osztja a bemenetet (S = hS1 , S2 . . . , Sr i), majd az egyes részekre megh´ıvja az APRIORI algoritmust, ami megadja az egyes részekben gyakori mintákat (h´ıvjuk o˝ket lokálisan gyakori mintáknak). A második végigolvasásnál egy minta akkor lesz jelölt, ha valamelyik részben gyakori volt. Könnyen látható, hogy az algoritmus teljes, hiszen egy gyakori mintának legalább egy részben gyakorinak kell lennie, és ezt az Apriori ki fogja sz˝ urni (mivel az Apriori is teljes). Kérdés, hogy hány részre osszuk a teljes adatbázist. Nyilvánvaló, hogy minél nagyobb az egyes részhalmazok mérete, annál jobb képet ad a teljes adatbázisról, tehát annál kevesebb lesz a hamis jelölt. A részek nagy mérete azonban azt eredményezi, hogy azok nem férnek el a memóriában, és ´ıgy az Apriori algoritmus sok id˝ot tölt el part´ıciórészek ideiglenes háttérbe másolásával és visszaolvasásával. Habár globálisan csak kétszer olvassuk végig a teljes


246

adatbázist, azonban az egyes part´ıciók I/O igényének o¨sszege legalább akkora, mintha a teljes adatbázisra futtatnánk le az Apriori algoritmust. Végeredményben a második végigolvasás miatt a part´ıciós algoritmus I/O igénye nagyobb lesz, mint az APRORI algoritmusé. Ha az egyes részek elférnek a memóriában, akkor nem lép fel a fenti probléma, hisz az Apriori algoritmus nem fog I/O m˝ uveletet igényelni (feltéve, ha a jelöltek a számlálóikkal egy¨ utt is elférnek még a memóriában). T´ ul kis méret választása azonban azt eredményezheti, hogy a part´ıció nem ad h˝ u képet a teljes adatbázisról, ´ıgy a lokális gyakori minták mások (is !) lesznek, mint a globális gyakori minták, ami t´ ul sok hamis jelöltet eredményezhet. A helyes part´ıcióméret tehát a rendelkezés¨ unkre a´lló memóriától f¨ ugg. Legyen minél nagyobb, de u ´ gy, hogy a jelöltek számlálóikkal egy¨ utt is elférjenek a memóriában. Természetesen a jelöltek száma a gyakori minták méretét˝ol f¨ ugg, amir˝ol a part´ıcióméret meghatározásakor még nincs pontos kép¨ unk. A part´ıciós algoritmus szintén érzékeny a bemenet homogenitására. Ezt az érzékenységet csökkenthetj¨ uk, ha módos´ıtjuk egy kicsit az algoritmust. Ha egy m minta gyakori az S i részben, akkor a rákövetkez˝o Si+1 , Si+2 , . . . Si+` részekben is határozzuk meg a támogatottságát egészen addig, am´ıg f req∪i+` Sj (m) ≥ min f req. Ha ezalatt eljutunk az utolsó részig, akkor vegy¨ uk j=i fel m-et a második végigolvasás jelöltjei közé. Ellenkez˝o esetben felejts¨ uk el, hogy m gyakori volt ezen részekben. Ha egy mintát az o¨sszes részben vizsgáltunk, akkor ezt szintén sz¨ ukségtelen felvenni jelöltnek a második végigolvasásnál, hiszen támogatottsága megegyezik az egyes résztámogatottságok o¨sszegével. A part´ıciós algoritmus további el˝onye, hogy remek¨ ul párhuzamos´ıtható. Saját memóriával rendelkez˝o feldolgozó egységek végezhetik az egyes részek gyakori mintakeresését, és ezáltal mind az els˝o, mind a második fázis töredék id˝o alatt elvégezhet˝o. Toivonen algoritmusa Az na´ıv mintavételez˝o algoritmus nagy hátránya, hogy még csökkentett min f req mellett sem lehet¨ unk biztosak abban, hogy nem vesztett¨ unk el gyakori mintát. Toivonen algoritmusa [173] az adatbázist egyszer olvassa végig, és ha jelenti, hogy minden mintát megtalál, akkor bizony´ıtható, hogy ez igaz. Az algoritmus nem más, mint a na´ıv mintavételez˝o algoritmus továbbfejlesztett változata. Az egyszer˝ u algoritmusnál azonban több információt ad, ugyanis jelenti, ha biztos abban, hogy minden gyakori mintát el˝oa´ll´ıtott, és azt is jelenti, amikor lehetséges, hogy van hiányzó jelölt (olyan gyakori minta, ami nem jelölt, és ´ıgy nem találhatjuk azt gyakorinak). A lehetséges hiányzó jelöltekr˝ol információt is közöl. Alapötlete az, hogy ne csak a kis részben található gyakori minták el˝ofordulását számoljuk o¨ssze a teljes adatbázisban, hanem azok minimális valódi fels˝o korlátait is. Mit jelent az, hogy az m minta tetsz˝oleges M ⊆M mintahalmaz minimális valódi fels˝o korlátai közé tartozik (jelölésben m ∈ M V F K(M )) ? El˝oször is a valódi fels˝o korlát formálisan : m0 ≺ m minden m0 ∈ M . A minimalitás pedig azt jelenti, hogy nem létezik olyan m00 minta, amely M -nek valódi fels˝o korlátja és m00 ≺ m. A gyakori minták minimális valódi fels˝o korlátjai azok a ritka minták, amelyek minden részmintája gyakori. Például elemhalmaz t´ıpus´ u minta esetén, ha M = 2{A,B,C,D,E,F } és M = = {{A}, {B}, {C}, {F }, {A, B}, {A, C}, {A, F }, {C, F }, {A, C, F }}, akkor M V F K(M ) = = {{B, C}, {B, F }, {D}, {E}}. Toivonen algoritmusában a teljes adatbázisból egy kis részt vesz¨ unk. Ebben meghatározzuk a gyakori minták halmazát és ennek minimális valódi fels˝o korlátját. A teljes adatbázisban ezek


247

támogatottságát vizsgáljuk, és gy˝ ujtj¨ uk ki a globálisan gyakoriakat. A következ˝o egyszer˝ u tétel ad információt arról, hogy ez az algoritmus mikor teljes, azaz mikor lehet¨ unk biztosak abban, hogy minden gyakori mintát meghatároztunk. 11.19. t´ etel. Legyen S0 az S bemeneti sorozat egy része. Jel¨ olj¨ uk GY -vel az S-ben, GY 0 -vel az S0 -ben gyakori mint´ akat és GY ∗ -al azokat az S-ben gyakori mint´ akat, amelyek benne vannak 0 0 GY ∪ M V F K(GY )-ben (GY ∗ = GY ∩ (GY 0 ∪ M V F K(GY 0 ))). Amennyiben GY ∗ ∪ M V F K(GY ∗ ) ⊆ GY 0 ∪ M V F K(GY 0 )

teljes¨ ul, akkor S-ben a gyakori mint´ ak halmaza pontosan a GY ∗ , teh´ at GY ∗ ≡ GY .

Bizony´ıt´ as: Indirekt tegy¨ uk fel, hogy létezik m ∈ GY , de m 6∈ GY ∗ , és a feltétel teljes¨ ul. A GY ∗ defin´ıciója miatt ekkor m 6∈ GY 0 ∪ M V F K(GY 0 ). Vizsgáljuk azt a legkisebb méret˝ u m0 m-t, 0 0 ∗ 0 amire m ∈ GY és m 6∈ GY (ilyen m -nek kell lennie, ha más nem, ez maga az m minta). Az m0 minimalitásából következik, hogy minden valódi részmintája eleme GY 0 ∪M V F K(GY 0 )-nek és gyakori. Ebb˝ol következik, hogy m0 minden részmintája eleme GY ∗ -nak, amib˝ol kapjuk, hogy m0 ∈ M V F K(GY ∗ ). Ez ellentmondást jelent, hiszen a feltételnek teljes¨ ulnie kell, azonban van 0 olyan elem (m ), amely eleme a bal oldalnak, de nem eleme a jobb oldalnak. Tetsz˝oleges GY 0 halmaz esetén az M V F K(GY 0 )∪GY 0 -t könny˝ u el˝oa´ll´ıtani. S˝ot, amennyiben a gyakori mintákat Apriori algoritmussal határozzuk meg, akkor M V F K(GY 0 ) elemei pontosan a ritka jelöltek lesznek (hiszen a jelölt minden része gyakori). Nézz¨ unk egy példát Toivonen algoritmusára. Legyen a mintatér a {A,B,C,D} hatványhalmaza. A kis részben az {A},{B},{C} elemhalmazok gyakoriak. Ekkor a minimális valódi fels˝o korlát elemei az {A,B},{A,C},{B,C},{D} halmazok. Tehát ennek a 7 elemhalmaznak fogjuk a támogatottságát meghatározni a teljes adatbázisban. Ha például az {A},{B},{C} {A,B} halmazokat találjuk gyakorinak a teljes adatbázisban, akkor a tételbeli tartalmazási reláció fennáll, hiszen az {A},{B},{C},{A,B} halmaz minimális valódi fels˝o korlátai köz¨ ul mind szerepel a 7 jelölt között. Nem mondható ez, ha {D}-r˝ol der¨ ul ki, hogy gyakori. Ekkor Toivonen algoritmusa jelenti, hogy el˝ofordulhat, hogy nem biztos, hogy minden gyakori elemhalmazt megtalált. Az esetleg kimaradtak csak ( !) az {A,D},{B,D},{C,D} halmazok lehetnek.

11.5.5. A z´ art mint´ ak t¨ or´ ekenys´ ege” ” Tagadhatatlan, hogy a zárt mintákon alapuló memóriacsökkentés egy szép elméleti eredmény. Ne foglaljunk helyet a memóriában a gyakori, nem zárt mintáknak, hiszen a zárt, gyakori mintákból az o¨sszes gyakori minta meghatározható. Ez a technika ritkán alkalmazható azon esetekben, amikor a bemenet sorozat formájában ´ mint azt adott, a támogatottságot pedig egy illeszkedési predikátum alapján definiáljuk. Es, már eml´ıtett¨ uk, a legtöbbször ez a´ll fenn. Ennek oka, hogy gyakori mintákat a´ltalában nagy, zajokkal terhelt adatbázisokban keresnek. Ilyen adatbázisban szinte az o¨sszes elemhalmaz zárt, ´ıgy a módszerrel nem nyer¨ unk semmit. Gondoljuk meg, hogy ha egy adatbázist u ´ gy terhel¨ unk zajjal, hogy véletlenszer˝ uen besz´ urunk egy-egy u ´ j elemet, akkor folyamatosan növekszik az esélye annak, hogy egy minta zárt lesz. A nemzártság tehát egy sér¨ ulékeny” tulajdonság. Tetsz˝oleges nem zárt m mintát zárttá tehet¨ unk ” egyetlen olyan tranzakció hozzáadásával, amely illeszkedik m-re, de nem illeszkedik egyetlen olyan mintára sem, amelynek m valódi részmintája.


248

11.5.6. Dinamikus gyakori mintab´ any´ aszat Nagy adatbázisok esetén a gyakori minták kinyerése még a leggyorsabb algoritmusokat felhasználva is lass´ u m˝ uvelet. Az adatbázisok többségében a tárolt adatok nem a´llandóak, hanem változnak : u ´ j elemeket vesz¨ unk fel, egyeseket módos´ıtunk, vagy törl¨ unk. Ha azt szeretnénk, hogy a kinyert gyakori minták konzisztensek legyenek az adatbázisban tárolt adatokkal, akkor bizonyos id˝oközönként a gyakori minták adatbázisát is friss´ıteni kell. A konzisztenciát elérhetj¨ uk u ´ gy, hogy lefuttatjuk valamelyik ismert (APRIORI, Zaki stb.) algoritmust minden módos´ıtás után. Ennek az a hátránya, hogy lass´ u, hiszen semmilyen eddig kinyert tudást nem használ fel. Sz¨ ukség van tehát olyan algoritmusok kifejlesztésére [14, 36, 37, 125, 147, 168], ami felhasználja az adatbázis el˝oz˝o a´llapotára vonatkozó információkat és ´ıgy gyorsabban ad eredményt, mint egy nulláról induló, hagyományos algoritmus. Itt most azt az esetet nézz¨ uk, amikor csak b˝ov´ıthetj¨ uk a bemenetet, de a le´ırt módszerek könnyen a´ltalános´ıthatók arra az esetre, amikor törölhet¨ unk is a bemenetb˝ol. Adott tehát S bemeneti sorozat, amelyben ismerj¨ uk a gyakori mintákat (GY S ) és azok támogatottságát. Ezen k´ıv¨ ul adott az u ´ j bemeneti elemek sorozata S0 . A feladat a hS, S0 i-ben található gyakori minták 0 (GY hS,S i ) és azok támogatottságának meghatározása. FUP algoritmus A FUP (Fast Update) [36] a legegyszer˝ ubb szabály- karbantartó algoritmus. Tulajdonképpen nem más, mint az APRIORI algoritmus módos´ıtása. Kétféle jelöltet k¨ ulönböztet¨ unk meg : az els˝o csoportba azok a minták tartoznak, melyek az eredeti adatbázisban gyakoriak voltak, a másodikba azok, amelyek nem. Nyilvánvaló, hogy az u ´ j adatbázisban mindkét csoport elemeinek támogatottságát meg kell határozni, a régi adatbázisban azonban elég a második csoport elemeit vizsgálni. A FUP az alábbi trivialitásokat használja fel. I. Ha egy minta S-ban gyakori volt és S0 -ben is az, akkor az hS, S0 i-ben is biztos gyakori, el˝ofordulása megegyezik S0 -beni és S-beni el˝ofordulások o¨sszegével. II. Amennyiben egy elemhalmaz S-ban ritka, akkor hS, S0 i-ben csak abban az esetben lehet gyakori, ha S0 -ben gyakori. Ezek szerint ne legyen jelölt olyan elemhalmaz, amely sem S-ban, sem S0 -ben nem gyakori. Ezekb˝ol következik, hogy csak olyan elemhalmazok lesznek jelöltek S végigolvasásánál, amelyek GY S -ban nem szerepeltek, de S0 -ben gyakoriak voltak. Az algoritmus pszeudokódja a 14-es a´brán látható. A támogatottság meghatározás, gyakoriak kiválogatása és a jelölt-el˝oa´ll´ıtás lépések teljes egészében megegyeznek a Apriori ezen lépéseivel. A FUP algoritmust könny˝ u módos´ıtani arra az esetre, amikor nem csak hozzáadunk u ´j elemeket az eredeti bemeneti sorozathoz, hanem törl¨ unk is néhányat a régi elemek köz¨ ul (FUP2 algoritmus [37]). A F U P és F U P2 algoritmusok nem mentesek az Apriori algoritmus legfontosabb hátrányától, attól, hogy a teljes adatbázist annyiszor kell a´tolvasni, amekkora a legnagyobb gyakori jelöltminta mérete. Ezen a problémán próbáltak seg´ıteni a kés˝obb publikált algoritmusok.


249

Algorithm 14 FUP algoritmus Require: S : régi bemeneti adat S0 : u ´ j bemeneti adat S GY : régi gyakori minták uszöb min f req : gyakorisági k¨ `⇐0 J`1 ⇐ GY`S {J`1 : 1-es csoportbeli jelöltek} J`2 ⇐ {¨ ures minta} \ GY`S {J`2 : 2-es csoportbeli jelöltek} while |J`1 | + |J`2 | 6= 0 do t´ amogatotts´ ag meghat´ aroz´ as(S 0 , J`1 ∪ J`2 ) ∗ J` ⇐ gyakoriak kiv´ alogat´ asa(J`2 , min f req) if |J`∗ | 6= 0 then t´ amogatotts´ ag meghat´ aroz´ as(S, J`∗ ) end if GY` ⇐ gyakoriak kiv´ alogat´ asa(J`1 ∪ J`∗ , min f req) ∗∗ J`+1 ⇐ jel¨ olt el} oa ´ll´ ıt´ as(GY` ) ` ⇐ `+1 J`1 ⇐ J`∗∗ ∩ GY`S J`2 ⇐ J`∗∗ \ GY`S delete(J`∗∗ ) end while 0 return GY hS,S i : gyakori minták Es´ elyes jel¨ olteken alapul´ o dinamikus algoritmus A [168] cikkben Toivonen algoritmusában használt minimális valódi fels˝o korlátokat használják annak érdekében, hogy csökkentsék a nagy adatbázist a´tolvasásának számát. Az adatbázis növekedése során el˝oször a minimális valódi fels˝o korlátok válnak gyakorivá. Ha nem csak a gyakori minták el˝ofordulását ismerj¨ uk a régi adatbázisban, hanem azok minimális valódi fels˝o korlátait is, akkor lehet, hogy sz¨ ukségtelen a régi adatbázist végigolvasni. Ha ugyanis az u ´j tranzakciók felvételével egyetlen minimális valódi fels˝o korlát sem válik gyakorivá, akkor biztos, hogy nem keletkezett u ´ j gyakori minta. A 11.19-as tétel ennél er˝osebb a´ll´ıtást fogalmaz meg : még ha bizonyos minimális valódi fels˝o korlátok gyakorivá váltak, akkor is biztosak lehet¨ unk abban, hogy nem kell a régi adatbázist a´tvizsgálnunk, mert nem keletkezhetett u ´ j gyakori minta. ´ ultetve a tételt a jelenlegi környezetbe : ha GY S∪S0 ∪M V F K(GY S∪S0 )⊆GY S ∪M V F K(GY S ), At¨ akkor biztosak lehet¨ unk, hogy nem keletkezett u ´ j gyakori minta, és csak a támogatottságokat kell friss´ıteni.

12. fejezet Gyakori sorozatok, bool formul´ ak ´ es epiz´ odok A kutatások középpontjában a gyakori elemhalmazok a´llnak. Tovább léphet¨ unk, és kereshet¨ unk bonyolultabb t´ıpus´ u mintákat is. Err˝ol szól ez a fejezet.

12.1. Gyakori sorozatok kinyer´ ese Napjainkban az elektronikus kereskedelem egyre nagyobb méretet o¨lt. A vev˝ok megismerésével és jobb kiszolgálásával célunk a profitnövekedés mellett a vásárlói elégedettség fokozása. Az elektronikus kereskedelem abban k¨ ulönbözik a hagyományos kereskedelemt˝ol, hogy az egyes tranzakciókhoz hozzárendelhetj¨ uk a vásárlókat. Eddig a tranzakciók (kosarak) o´riási halmaza a´llt rendelkezés¨ unkre, most ennél több : pontosan tudjuk, hogy ki, mikor, mit vásárol. Az u ´ jabb adatok u ´ jabb információkinyeréshez adhatnak alapot. Nem csak a´ltalános vásárlási szabályokat a´ll´ıthatunk el˝o, hanem ennél többet : személyre szabhatjuk a vásárlási szokásokat, vev˝ok csoportjait alak´ıthatjuk ki, megkereshetj¨ uk a sok, illetve kevés profitot hozó vásárlási csoportokat, stb. Ebben a fejezetben a vev˝ok között gyakran el˝oforduló vásárlói minták kinyerésével foglalkozunk. Két példa : sok vev˝o a Csillagok hábor´ uja” DVD megvétele után a Birodalom visszavág” ” ” c´ım˝ u filmet, majd kés˝obb a Jedi visszatér” c´ım˝ u filmet is megveszi DVD-n, vagy a vev˝ok 30%-a ” u ´ j mobiltelefon és u ´ j tok vásárlása után u ´ j el˝olapot is vásárol. Kereskedelmi cégek a kinyert gyakori mintákat, epizódokat u ´ jabb profitnövekedést hozó fogásokra használhatják. Például kider¨ ulhet, hogy a videomagnót vásárlók nagy aránya a vásárlást követ˝o 3-4 hónappal kamerát is vásárolnak. Ekkor ha valaki videomagnót vesz, k¨ uldj¨ unk ki postán kamerákat reklámozó prospektusokat a vásárlást követ˝oen 2-3 hónappal. A szekvenciális mintakinyerés (és egyéb epizódkutató algoritmusok) nem csak az on-line a´ruházakra jellemz˝o. Felhasználási ter¨ ulet¨ uk egyre b˝ov¨ ul, a további kutatásokat a gyakorlatban el˝oforduló problémák is igénylik. Jellemz˝o ter¨ ulet a direkt marketing, de további felhasználási ter¨ uletre lehet példa az alábbi : páciensek t¨ uneteit és betegségeit tartalmazó adatbázisokból kinyert minták nagy seg´ıtségre lehetnek az egyes betegségek kutatásánál, nevezetesen, hogy az egyes betegségeket milyen t¨ unetek, vagy más betegségek el˝ozik meg gyakran. Miel˝ott rátér¨ unk arra, hogy miként lehet kinyerni elemhalmazokat tartalmazó sorozatokból a gyakoriakat, egy egyszer˝ ubb esettel foglalkozunk, ahol a sorozat elemei atomi események. 250

´ ES ´ EPIZODOK ´ 12. FEJEZET. GYAKORI SOROZATOK, BOOL FORMULAK

251

12.1.1. A Gyakori Sorozat Fogalma A gyakori sorozatok kinyerésének feladata annak a feladatkörnek egy esete, amikor a támogatottságot a tartalmazási predikátum alapján definiáljuk. Feltételezz¨ uk, hogy az olvasó tisztában van a 11.5 részben definiált fogalmakkal. Adott (I = {i1 , i2 , . . . , im } elemek (vagy termékek) halmaza és v darab I felett értelmezett sorozat. Tehát a bemenet sorozatoknak egy sorozata : bemenet : S = hS1 , S2 , . . . , Sv i, (k)

(k)

(k)

(k)

ahol Sk = hi1 , i2 , . . . , in(k) i, és ij ∈ I. Definiáljuk a M = (M, ) mintakörnyezet tagjait sorozatok esetében. Az M elemei az I felett értelmezett sorozatok : 12.1. defin´ıci´ o. S = hi1 , . . . , im i sorozat tartalmazza S 0 = hi01 , . . . , i0n i sorozatot (jel¨ oléssel S 0 S), ha léteznek j1 < j2 < . . . < jn egész sz´ amok u ´gy, hogy i01 = ij1 , i02 = ij2 , . . . , i0n = ijn . Amennyiben S 0 S, akkor S 0 az S részsorozata. Például a hG, C, I, D, E, Hi sorozat tartalmazza a hC, D, Hi sorozatot. Ebben a mintakörnyezetben || f¨ uggvény a sorozat hosszát adja meg. A fentiek alapján a fedés, TID lista, támogatottság, gyakoriság, gyakori sorozat defin´ıciója egyértelm˝ u. Egy alap mintakinyerési feladatban adott Si sorozatok sorozata, továbbá min supp támogatottsági k¨ uszöb, el˝o kell a´ll´ıtani a gyakori sorozatokat.

12.1.2. APRIORI A fent definiált feladat a gyakori mintakinyerés egy speciális esete, ´ıgy alkalmazhatók rá az a´ltalános algoritmusok, például az APRIORI. Az a´ltalános le´ırást megadtuk a 11.4 részben, itt most csak azon speciális részleteket vizsgáljuk, amelyek sorozat t´ıpus´ u mintatér esetén érvényesek. Két lépést vizsgálunk közelebbr˝ol a jelöltek el˝oa´ll´ıtását és a támogatottság meghatározását. Jel¨ oltek el˝ o´ all´ıt´ asa Az APRIORI jelöltel˝oa´ll´ıtása két lépésb˝ol a´ll : potenciális jelöltek el˝oa´ll´ıtása, majd a potenciális jelöltek részmintáinak vizsgálata. Akkor lesz egy `-elem˝ u potenciális jelöltb˝ol jelölt, ha ´ minden `−1 elem˝ u részsorozata gyakori. Altal´ anosan annyit mondtunk el, hogy egy potenciális jelölt két ` − 1 elem˝ u gyakori mintáknak (ezeket h´ıvtuk a jelölt generátorainak) a minimális valódi fels˝o korlátja. Sorozat t´ıpus´ u minta esetén akkor lesz két ` − 1 elem˝ u gyakori mintáknak a minimális valódi fels˝o korlátja ` elem˝ u, ha van ` − 2 elem˝ u közös részsorozatuk. A hatékonyság szempontjából fontos lenne, ha a jelöltek el˝oa´ll´ıtása ismétlés nélk¨ uli lenne. Ehhez sz¨ ukség¨ unk van a sorozatokon értelmezett teljes rendezésre. Az I elemein tudunk egy tetsz˝oleges teljes rendezést definiálni, ami szerinti lexikografikus rendezés megfelel a célnak. A rendezés alapján értelmezhetj¨ uk egy sorozat tetsz˝oleges elem˝ u prefixét. Két `−1 elem˝ u gyakori mintákból akkor képzek potenciális jelöltet, ha ` − 2 elem˝ u prefix¨ uk megegyeznek (hasonlóan a halmazok eseténél). A minimális valódi fels˝o korlát a az utolsó elemmel b˝ov´ıtett sorozatok lesznek.


252

A generátorok lehetnek azonos sorozatok is. Például az hG, C, Ii sorozat o¨nmagával a hG, C, I, Ii jelöltet fogja el˝oa´ll´ıtani. Látnunk kell, hogy ez a jelöltel˝oa´ll´ıtás ismétlés nélk¨ uli, ugyanis tetsz˝oleges jelölteknek egyértelm˝ uen meg tudjuk mondani a generátorait. T´ amogatotts´ ag meghat´ aroz´ asa A jelölt sorozatok támogatottságának meghatározás szinte megegyezik a jelölt halmazok támogatottságának meghatározásával. Err˝ol részletesen szóltunk a 4.2.2 részben. Itt csak az apró k¨ ulönbségekre tér¨ unk ki. A kételem˝ u jelölteknél nem csak a kétdimenziós tömb egyik felét fogjuk használni, hanem a teljes tömböt. Ez abból következik, hogy szám´ıt a sorrend, tehát például az hA, Bi sorozat k¨ ulönbözik az hB, Ai sorozattól. Kett˝onél nagyobb jelölteket célszer˝ u szófában tárolni. A szófa felép´ıtése, a jelöltek K´ın´ aban, ahol sokan fogyasztj´ ak támogatottságának meghatározása 1 apró részlett˝ol ”rendszeresen, lehet˝ oség volt hosszas eltekintve teljesen megegyezik a halmazoknál k´ısérletek folytat´ as´ ara, melyek sor´ an le´ırtakkal. A szófa bejárásakor u ¨ gyelni kell arra, hogy bebizonyosodott, hogy azok a férfiak a sorozatban lehetnek ismétl˝od˝o elemek, illetve az ele- és n˝ ok, akik hetente legal´ abb egyszer mek nincsenek sorba rendezve. A rekurziós lépés nem isznak te´ at, kevesebb eséllyel betekét rendezett lista közös elemeinek meghatározását gednek meg végbél, hasny´ almirigyés jelenti, hanem egy rendezett lista (az adott bels˝o vastagbéldaganatban, illetve a betegség pontból kiinduló élek c´ımkéi) azon elemeinek meg- esetleges kialakul´ asa sor´ an lelassul határozását, amelyek szerepelnek egy másik listában a r´ akos sejtek burj´ anz´ asa.” Forrás : (az aktuális bemeneti sorozat vizsgálandó része). http://www.vital.hu/themes/ alter/bio9.htm

12.1.3. Elemhalmazokat gyakori sorozatok

tartalmaz´ o

Az el˝oz˝o részben definiált feladat a´ltalános´ıtása, amikor a bemeneti sorozat és a mintahalmaz elemei nem elemek sorozata, hanem elemhalmazoké. Azaz megeneged¨ unk hAB, B, ABC, Ei t´ıpus´ u sorozatokat is. Vásárlásoknál például nem csak egy terméket vásárolnak az emberek, hanem termékek egy halmazát. Form´ alis le´ır´ as A bemeneti sorozatok és a mintatér elemei a 2I felett értelmezett sorozatok, azaz a sorozat elemei az I részhalmazai. A bemeneti sorozat elemeit szokás v´ as´ arl´ oi sorozatoknak is h´ıvni, utalva arra, hogy el˝osz˝or vásárlói sorzatok esetén ker¨ ult el˝o a feladat. Hasonlóan az eddigiekhez a támogatottságot a tartalmazási reláció alapján definiáljuk. 12.2. defin´ıci´ o. S = hI1 , . . . , Im i sorozat tartalmazza S 0 = hI10 , . . . , In0 i sorozatot (jel¨ oléssel S 0 0 0 0 S), ha léteznek j1 < j2 < . . . < jn egész sz´ amok u ´gy, hogy I1 ⊆ Ij1 , I2 ⊆ Ij2 , . . . , In ⊆ ijn . Ezzel a tartalmazási relációval egy sorozat mérete a sorozat elemeinek méretösszege (tehát például a hAB, B, ABC, Ei sorozat mérete 7). A támogatottság, gyakoriság, TID lista, gyakori sorozat fogalmai megegyeznek az eddigiekkel. Feladatunk kinyerni az elemhalmazokból felép¨ ul˝o gyakori sorozatokat [8].


253

APRIORIALL Ismét APRIORI ! De minek törj¨ uk az agyunkat u ´ j módszereken, ha van már módszer, ami jól megoldja a feladatot. Csak a jelöltek el˝oa´ll´ıtását kell tisztázni (pontosabban csak annak els˝o lépését), és készen is vagyunk, mehet¨ unk pihenni (,). Ennél még kényelmesebb megoldást javasoltak az APRIORIALL kitalálói1 . Visszavezették ezt a feladatot az el˝oz˝o részben bemutatott APRIORI megoldásra. Bevezethetj¨ uk a gyakori elemhalmaz fogalmát. Az I elemhalmaz támogatottsága megegyezik azon sorozatok számával, amelyek valamelyik eleme tartalmazza I-t. Az I gyakori, ha támogatottsága nagyobb min supp-nál. Nyilvánvaló, hogy gyakori sorozat minden eleme gyakori elemhalmaz. Ezeket a gyakori elemeket tekinthetj¨ uk atomi elemeknek, és használhatjuk az el˝oz˝o részben bemutatott algorimust. A gyakori elemhalmazok meghatározásához pedig ¨ tetsz˝oleges gyakori elemhalmazt kinyer˝o algoritmust használhatunk. Ugyeln¨ unk kell azonban arra, hogy a támogatottság meghatározásánál egy sorozat csak eggyel növelheti egy jelölt méretét akkor is ha több elemének része a jelölt. A feladat visszavezetése az el˝oz˝o feladat APRIORI megoldására nem jelenti azt, hogy ez a megoldás megegyezik az absztrakt APRIORI adaptálásával elemhalmazokat tartalmazó sorozatokra. Az APRIORIALL ugyanis az iterációk során eggyel hosszabb jelöltsorozatokat hoz létre, amelyek mérete nem feltétlen¨ ul eggyel nagyobb generátoraiknál. Az APRIORIALL nagyobb léptékben halad, ´ıgy kevesebb iterációs lépést hajt végre, de ugyanakkor jóval több hamis jelöltet generálhat. Ez tehát egy kényelmes, de veszélyes megoldás. Id˝ ok´ enyszerek Bevezet´ ese A gyakori sorozatok kinyerését – hasonlóan a gyakori minták kinyeréséhez – a marketingesek igénye keltette életre. A kapott eredmények azonban nem elég´ıtették ki o˝ket, u ´ jabb feladattal a´lltak el˝o [163] [192] ! I. Id˝ ok´ enyszerek bevezet´ ese. A felhasználók gyakran specifikálni akarják a sorozatban található szomszédos elemek között eltelt id˝o maximális és minimális megengedett értékét. Például nem tulajdon´ıtunk t´ ul nagy jelent˝oséget annak, ha valaki vesz egy tusf¨ urd˝ot majd három év m´ ulva egy ugyanolyan márkáj´ u szappant. II. Kosarak defin´ıci´ oj´ anak laz´ıt´ asa. Sok alkalmazásnál nem szám´ıt ha a sorozat egy elemét 2 (vagy több) egymás utáni kosár tartalmazza, ha azok vásárlási ideje bizonyos id˝oablakon bel¨ ul van. Amennyiben egy vev˝o 5 perc m´ ulva visszatér az a´ruházba, akkor valósz´ın˝ u, hogy ezt nem az el˝oz˝o vásárlásának hatására tette (még kicsomagolni sem volt ideje az a´rut), hanem inkább elfelejtett valamit. Logikus, hogy a két vásárlást o¨sszevonhatjuk, és lehet, hogy az o¨sszevont kosárhalmazban már megtalálható lesz a sorozat egy eleme, m´ıg az eredeti kett˝oben k¨ ulön-k¨ ulön nem. A tranzakciók defin´ıciójának ilyen laz´ıtásánál a sorozatok elemeit kosarak uniója tartalmazhatja, ahol az unióban szerepl˝o kosarak vásárlási idejeinek egy el˝ore megadott id˝oablakon bel¨ ul kell lenni¨ uk. 1

Ez nem meglep˝ o, hiszen sem az ismétlés nélk¨ uli jel¨ oltel˝ oa ´ll´ıt´ as sem a t´ amogatotts´ ag meghat´ aroz´ asa nem ´ trivi´ alis feladat. Erdemes elgondolkozni azon, hogy miért nem.


254

A Gyakori Sorozat Fogalma Id˝ ok´ enyszerek Eset´ en Ismét vásárlási sorozatok sorozataként adott a bemenet, de most a vásárlási sorozatok elemei nem pusztán elemhalmazok, hanem olyan párok, amelyek els˝o tagja egy elemhalmaz, második tagja pedig egy id˝obélyeg. Tehát, legyen ismét I = {i1 , i2 , . . . , im } elemek (vagy termékek) halmaza. Egy vásárlói sorozat most T = htˆ1 , tˆ2 , . . . , tˆn i tranzakciók sorozata, ahol tˆj = (tj , T IM Ej ), tj ⊆ I, T IM Ej ∈ R. A tˆ = (t, T IM E) tranzakció tartalmazza I ⊆ I elemhalmazt (jelölésben I ⊆ tˆ), ha I ⊆ t. A tˆ tranzakció idejére a továbbiakban tˆ.T IM E-al hivatkozunk, tranzakciójára tˆ.t-vel. A mintakörnyezet defin´ıciója megegyezik a hagyományos, sorozatokat tartalmazó mintakörnyezettel. Mivel ebben az esetben a bemenet és a mintatér elemeinek t´ıpusa k¨ ulönbözik (párokból a´lló sorozat, illetve elemhalmazokból a´lló sorozat) ezért definiálnunk kell a támogatottságot. 12.3. defin´ıci´ o. A T = htˆ1 , tˆ2 , . . . , tˆn i v´ as´ arl´ oi sorozat tartalmazza az M = hI1 , . . . , Im i mintasorozatot, ha léteznek 1 ≤ l1 ≤ u1 < l2 ≤ u2 < . . . < lm ≤ um ≤ n egész sz´ amok u ´gy, hogy u

j I. Ij ⊆ ∪k=l tˆ .t,1 ≤ j ≤ m, j k

II. tûi .T IM E − tˆli .T IM E≤ id˝o ablak, 1 ≤ i ≤ m, III. tˆli .T IM E − tûi−1 .T IM E > min eltelt id˝o, 2 ≤ i ≤ m IV. tûi .T IM E − tˆli−1 .T IM E ≤ max eltelt id˝o, 2 ≤ i ≤ m A fentiekb˝ol látszik, hogy a 12.1 defin´ıcióval ellentétben tetsz˝oleges elemhalmazt tranzakciók elemhalmazainak uniója tartalmazhat, ahol a tranzakcióknak id˝ o ablak on bel¨ ul kell lenni¨ uk (2. feltétel). Ez alapján az M mintasorozat t´ amogatotts´ aga legyen az M -et tartalmazó vásárlói sorozatok száma. Egy mintasorozat gyakori, ha támogatottsága nem kisebb egy el˝ore megadott támogatottsági k¨ uszöbnél (min supp). Definiáltunk egy gyakori mintákat kinyer˝o problémát, amit nyilvánvalóan meg tudunk oldani egy APRIORI algoritmussal. A jelöltek el˝oa´ll´ıtásának módja egyezzen meg az APRIORIALL jelöltel˝oa´ll´ıtásának módjával (lévén a mintakörnyezet ugyanaz), a támogatottságok meghatározásánál pedig vegy¨ uk figyelembe az id˝okényszereket, annak érdekében, hogy a helyes támogatottságokat kapjuk. Ha lefuttatnánk ´ıgy az algoritmus, és vizsgálnánk az eredményt, akkor megdöbbenve vennénk észre, hogy az APRIORI algoritmus nem a´ll´ıtotta el˝o az o¨sszes gyakori sorozatot. Mi az oka ennek ? Bizony´ıtottuk, hogy az APRIORI teljes, de akkor hol b´ ujt el a hiba ? A következ˝o részben eláruljuk a megoldást. GSP algoritmus A GSP (Generalized Sequential Patterns) algoritmus alkalmas olyan sorozatok kinyerésre, amelynél id˝okényszereket alkalmazhatunk és laz´ıthatjuk a tranzakciók defin´ıcióját. A most következ˝o le´ırás látszólag teljesen eltér a GSP-t publikáló ´ırástól. Ennek oka az, hogy ragaszkodunk az egységes le´ıráshoz, amit a 11.1 részben adtunk. Ennek a le´ırásnak nagy el˝onye az, hogy ha a problémát meg tudjuk fogalmazni ebben a keretben, akkor a megoldás is azonnal adódik.


255

Térj¨ unk vissza arra a kérdésre, hogy hol a hiba. Tekints¨ uk a következ˝o mintát : M =hA, B, Ci, és nézz¨ uk a következ˝o vásárlói sorozatot : T=h(A, 1.0), (B, 2.0), (C, 3.0)i. Ha max eltelt id˝ o=1.5, akkor T tartalmazza M -et, de nem tartalmazza annak M 0 = hA, Ci részmintáját, ugyanis az A és C elem id˝obélyege között nagyobb a k¨ ulönbség max eltelt id˝ o -nél. Ezek szerint az M támogatottsága nagyobb, mint M 0 részmintájának támogatottsága. Azaz a fent definiált támogatottsági f¨ uggvény nem teljes´ıt a támogatottsági f¨ uggvénnyel szembeni elvárásunkat ! Hát ez a hiba, ezért nem fog helyes eredményt adni az APRIORI. Ahelyett, hogy u ´ j problémát definiálnánk és u ´ j algoritmus keresnénk, próbálkozzunk azzal, hogy a´t´ırjuk a feladatot u ´ gy, hogy az u ´ j feladat megoldásai megegyezzenek az eredeti feladat megoldásaival, és az u ´ j feladat beilleszkedjen egységes keret¨ unkbe. A bemenet, a keresett minta t´ıpusa és a támogatottsági f¨ uggvény adott, ´ıgy csak a MK = (M, ≺) mintakörnyezet második tagját változtathatjuk meg. 12.4. defin´ıci´ o. Az M =hI1 , . . . , In i sorozatnak M 0 részsorozata (vagy az M tartalmazza M 0 -t, M 0 ≺ M ), amennyiben az al´ abbi 3 feltétel k¨ oz¨ ul teljes¨ ul valamelyik : I. M 0 -t megkaphatjuk M -b˝ ol I1 vagy In t¨ orlésével. II. M 0 -t megkaphatjuk M -b˝ ol egy legal´ abb 2 elem˝ u Ii valamely elemének t¨ orlésével. III. M 0 részsorozata M 00 -nek, ahol M 00 részsorozata M -nek. Ebben a mintakörnyezetben a || f¨ uggvény ismét a sorozat elemei méretének o¨sszegét adja meg. Nézz¨ unk példákat részsorozatokra. Legyen M = hAB, CD, E, F i. Ekkor a hB, CD, Ei, hAB, C, E, F i és a hC, Ei mind részsorozatai M -nek, de a hAB, CD, F i és hA, E, F i sorozatok nem azok. 12.5. ´ eszrev´ etel. A fenti tartalmaz´ asi rel´ aci´ ora nézve a t´ amogatotts´ agi f¨ uggvény rendelkezik a monotonit´ as tulajdons´ ag´ aval. Ha visszatér¨ unk ahhoz a példához, amelyen bemutattuk, hogy az eredeti támogatottsági f¨ uggvény nem igazi támogatottsági f¨ uggvény, akkor láthatjuk, hogy nem baj, ha hA, B, Ci támogatottsága nagyobb, mint az hA, Ci támogatottsága, ugyanis hA, Ci nem része az hA, B, Ci sorozatnak. Most már alkalmazhatjuk az APRIORI algoritmust. Ezzel kapcsolatban egyetlen kérdést kell tisztáznunk, mégpedig az, hogyan és mikor a´ll´ıtsunk el˝o két ` − 1 elem˝ u gyakori sorozatból ` elem˝ u jelöltet. Két k-méret˝ u sorozatból (S1 , S2 ) potenciális jelöltet generálunk akkor, ha törölnénk S1 els˝o elemének legkisebb sorszám´ u elemét ugyanazt a sorozatot kapnánk, mintha S 2 -b˝ol az utolsó elem legnagyobb sorszám´ u elemét törölnénk. A jelölt sorozat az S 2 utolsó elemének legnagyobb sorszám´ u elemével b˝ov´ıtett S1 sorozat lesz. Az u ´ j elem k¨ ulön elemként fog megjelenni a jelöltben, amennyiben S2 -ben is k¨ ulön elem volt, ellenkez˝o esetben S1 utolsó eleméhez csatoljuk. A fentiek alól kivétel az 1-elemes sorozatok illesztése, ahol az u ´ j elemet mind a kétféleképpen fel kell venni, tehát mint u ´ j elem, és mint b˝ov´ıtés is. Ezek szerint h(i)i és h(j)i illesztésénél h(i, j)i, és h(j), (i)i is beker¨ ul a jelöltek közé (egyértelm˝ u, hogy mindkét jelöltnek mindkét 1-elemes sorozat részsorozata). A fenti táblázat egy példát mutat a jelöltek el˝oa´ll´ıtására. Az h(A, B), (C)i sorozatot a h(B), (C, D)i és a h(B), (C), (E)i sorozathoz is illeszthetj¨ uk. A többi sorozatot egyetlen

´ ES ´ EPIZODOK ´ 12. FEJEZET. GYAKORI SOROZATOK, BOOL FORMULAK 3 méret˝ u gyakoriak h(A, B), (C)i h(A, B), (D)i h(A), (C, D)i h(A, C), (E)i h(B), (C, D)i h(B), (C), (E)i

256

4 méret˝ u jelöltek potenciális jel. jelölt h(A, B), (C, D)i h(A, B), (C, D)i h(A, B), (C), (E)i

12.1. táblázat. Példa : GSP jelöltgenerálás

másik sorozathoz sem tudjuk illeszteni. Például az h(A, B), (D)i illesztéséhez h(B), (Dx)i vagy h(B), (D), (x)i alak´ u sorozatnak kéne szerepelnie a gyakoriak között, de ilyen nem létezik. A törlési fázisban az h(A, B), (C), (E)i sorozatot törölj¨ uk, mert az h(A), (C), (E)i részsorozata nem gyakori. A jelöltek támogatottságának meghatározását nem részletezz¨ uk.

12.1.4. Sorozat t´ıpus´ u minta ´ altal´ anos´ıt´ asa Tetsz˝oleges elemsorozatot a´brázolhatunk egy gráffal. Például a hA, B, Ci sorozat megfelel˝oje A

B

C

gráf. Az a´ltalunk definiált sorozatot, mindig egy nagyon egya szer˝ u gráffal a´brázolnánk, ami egy irány´ıtott, körmentes, c´ımkézett u ´ t. Mi sem természetesebb, hogy a sorozat a´ltalános´ıtása egy olyan valami, amit teljesen a´ltalános irány´ıtott, körmentes, c´ımkézett gráffal a´brázolunk. Például lehet egy a´ltalános mintához tartozó gráf a 12.1 a´brán látható. D A

C B

C

B

12.1. a´bra. Példa : sorozat a´ltalános´ıtása ´ Erezz¨ uk, hogy ezt a mintát tartalmazzák például a hA, D, C, B, C, Bi vagy az hE, D, A, B, B, CC, Bi sorozatok, de nem tartalmazzák a hA, D, C, C, B, Bi illetve a hA, D, B, C, B, Ci sorozatok. Ugyanezt az a´ltalános le´ırást kapnánk, ha egy sorozatra nem mint u ´ t tekint¨ unk, hanem mint olyan halmazon értelmezett teljes rendezés, amelynek elemei azonos´ıtó, elem párok. A teljes rendezés a´ltalános´ıtása ugyanis a részben rendezés, amit körmentes, irány´ıtott gráffal szokás a´brázolni. Nézz¨ uk formálisan. Legyen I, illetve T ID elemek és azonos´ıtók halmaza. A mintatér elemei ekkor (tid, i) párokon értelmezett részben rendezés, ahol tid ∈ T ID, i ∈ I. A tid c´ımkéjén az i


257

elemet értj¨ uk. 12.6. defin´ıci´ o. Az m = ({(tid1 , i1 ), . . . , (tidm , im )}, ≤) minta tartalmazza az m0 = = ({(tid01 , i01 ), . . . , (tid0n , i0n )}, ≤ 0 ) mint´ at (jel¨ oléssel m0 m), ha létezik f : {tid01 , . . . tid0m } → {tid1 , . . . tidn } injekt´ıv f¨ uggvény u ´gy, hogy tid0j c´ımkéje megegyezik f (tid0j ) c´ımkéjével (1 ≤ j ≤ ≤ m), és (tid0k , i0k ) ≤ 0 (tid0l , i0l ) esetén (f (tid0k ), i0k ) ≤ (f (tid0l ), i0l ) is teljes¨ ul minden (1 ≤ k, l ≤ m) indexre. Az a´ltalános minta keresésénél a bemenet I felett értelmezett elemsorozatok sorozataként adott. Egy bemeneti sorozat tulajdonképpen felfogható a´ltalános mintának, ahol a rendezés teljes rendezés. Egy minta t´ amogatotts´ aga megegyezik azon sorozatok számával, amelyek tartalmazzák a mintát.

12.2. Gyakori bool formul´ ak Legyenek a bemenet n-esek halmaza. A felhasználó megad predikátumokat, amelyek a bemenet elemein vannak értelmezve, és akár többváltozósak is lehetnek. A mintatér elemei ezen predikátumokon értelmezett bool formula. A formulában megengedj¨ uk az és, vagy illetve neg´ aci´ o operátorokat [111], de hatékonysági okok miatt célszer˝ u csak a diszjunkt´ıv normál formulákra szor´ıtkozni. Nézz¨ unk példákat. Tegy¨ uk fel, hogy egy telekommunikációs hálózatban egy eseménynek 4 attrib´ utuma van : Kutat´ asi eredmények igazolj´ ak, t´ıpus, modul, szint, id˝obélyeg. Az els˝o megadja egy ri- ”hogy a csoportban m˝ uk¨ od˝ oknek asztás t´ıpusát, a második a modult, ami a riasztást k¨ uldte, teljesebb sz¨ ulésélményben van a harmadik a riasztás er˝osségét, a negyedik pedg riasztás rész¨ uk, k¨ or¨ ukben alacsonyabb id˝opontját. Ebben a környezetben mintára lehet példa az a korasz¨ ulések sz´ ama, és a alábbi : bab´ ak s´ ulya is nagyobb az egyéni p(x,y)=x.t´ıpus=2356 ∧ y.t´ıpus=7401 ∧x.time ≤ y.time∧ x.modul=y.modul

felkész¨ ulésben részes¨ ul˝ oknél.” Forrás : Baba Patika X. évfolyam 10. szám, 56. oldal 2007. október

ami azt jelenti, hogy egy 2356 és egy 7401 t´ıpus´ u riasztás érkezett ebben a sorrendben ugyanabból a modulból. Bevezethetj¨ uk például a szomszédja – modul attrib´ utumra vonatkozó – kétváltozós predikátumot, ha u ´ gy gondoljuk hogy fontos lehet ennek vizsgálata. Ekkor a p’(x,y)=x.t´ıpus=2356 ∧ y.t´ıpus=7401 ∧ szomszédja(x.modul=y.modul) azt fejezi ki hogy a 2356 és 7401 t´ıpus´ u riasztások szomszédos modulból érkeztek. A p(x1 , x2 , . . . xm ) m változós minta illeszkedik az hS1 , S2 , . . . , Sv i sorozatra, ha léteznek i1 , i2 , . . . im egészek u ´ gy, hogy p(Si1 , Si2 , . . . , Sim ) igaz értéket ad.

12.3. Gyakori epiz´ odok Az eddig részekben sok elemhalmaz, sorozat volt adva, és kerest¨ uk a gyakori mintákat. Ezek a minták a´ltalánosan érvényes információt adtak : az adott vásárlói minta sok vásárlóra


258

jellemz˝o. Ha a sok sorozatból kiválasztunk egyet és azt elemezz¨ uk, akkor az adott sorozatra jellemz˝o információt nyer¨ unk ki. Megtudhatjuk például, mi jellemz˝o az adott u ¨ gyfélre, amit felhasználhatunk akkor, amikor személyre szabott ajánlatot szeretnénk tenni (például azért mert az u ¨ gyfél elégedetlen szolgáltatásainkkal, és vissza akarjuk szerezni bizalmát). Epizódkutatásról beszél¨ unk, ha egyetlen sorozat van adva, és ebben keress¨ uk a gyakran el˝oforduló mintákat[112, 113]. Az epizódkutatásnak egyik fontos ter¨ ulete a telekommunikációs rendszerek vizsgálata. Az olyan epizódok feltárása, amelyben riasztás is el˝ofordul, alkalmas lehet a riasztás okának felder´ıtésére, vagy el˝orejelzésére. Nem vezet¨ unk be u ´ j t´ıpus´ u mintát, tehát most is elemhalmazokat, sorozatokat keres¨ unk, de a formalizmus könnyen a´ltalános´ıtható elemhalmazokat tartalmazó sorozatokra, vagy a´ltalános mintára is. A támogatottsági f¨ uggvény lesz u ´ j, ami abból fakad, hogy egyetlen bemeneti sorozat van adva.

12.3.1. A t´ amogatotts´ ag defin´ıci´ oja Legyen I elemek (items) halmaza. A bemenet az I felett értelmezett sorozat. bemenet : S = hi1 , i2 , . . . , in i, ahol ik ∈ I minden k-re, 12.7. defin´ıci´ o. Az S = hi1 , i2 , . . . , in i sorozatnak a hij , ij+1 , . . . , ij+w−1 i sorozat egy w elem széles o¨sszef¨ ugg˝o részsorozata, ha 1 ≤ j ≤ n + 1 − w. Ha w < n, akkor valódi o¨sszef¨ ugg˝o részsorozatról beszél¨ unk. Legyen adva MK mintakörnyezet, és értelmezz¨ uk valahogy a τ anti-monoton illeszkedési predik´ atumot. τS (m) igaz értéket ad, ha az m minta illeszkedik az S sorozatra. 12.8. defin´ıci´ o. A m minta minim´ alisan illeszkedik az S sorozatra, ha S-nek nincsen olyan val´ odi o ¨sszef¨ ugg˝ o részsorozata, amelyre illeszkedik m. Ha például a mintatér elemei I részhalmazai, akkor a S = hi1 , i2 , . . . , in i sorozatra illeszkedik az I halmaz, amennyiben minden i ∈ I-hez létezik 1 ≤ j ≤ n, amelyre i = ij . Elemsorozat t´ıpus´ u minta esetén S akkor illeszkedik az S sorozatra, ha S részsorozata S-nek, ahol a részsorozat defin´ıciója megegyezik a 12.1 részben megadottal. Két k¨ ulönböz˝o támogatottsági defin´ıció terjedt el. 12.9. defin´ıci´ o. Legyen S bemeneti sorozat, MK = (M, ) mintak¨ ornyezet és τ anti-monoton illeszkedési predik´ atum. Az m ∈ M minta t´ amogatotts´ aga megegyezik I. S azon o ¨sszef¨ ugg˝ o részsorozatainak sz´ am´ aval, amelyekre m minim´ alisan illeszkedik. II. S azon w széles részsorozatainak sz´ am´ aval, amelyekre m illeszkedik. Itt w el˝ ore megadott konstans. Ha a támogatottság ´ıgy van definiálva, akkor a mintatér elemeit epiz´ odoknak nevezz¨ uk. Egy epizód gyakori, ha támogatottsága nem kisebb egy el˝ore megadott korlátnál, amit a´ltalában min supp-al jelöl¨ unk. Epizódkutatásnál adott S bemeneti sorozat MK = (M, ) mintakörnyezet (esetleg w) és τ illeszkedési predikátum, célunk megtalálni a gyakori epizódokat.


259

12.3.2. APRIORI Az illeszkedési predikátum anti-monoton tulajdonságából következik a támogatottság anti-monoton´ıtása, amib˝ol jön, hogy gyakori epizód minden részepizódja gyakori. Mi sem természetesebb, hogy a gyakori epizódok kinyeréséhez az APRIORI algoritmust használjuk. Az jelöltek-el˝oa´ll´ıtása és a gyakori epizódok kiválogatása ugyanaz, minta a támogatottságot a régi módszerrel definiálnánk (lásd 4.2 12.1.2 rész). Egyed¨ ul a támogatottság meghatározásán kell változtatnunk. A következ˝okben feltessz¨ uk, hogy a támogatottságot a második defin´ıció szerint értj¨ uk (w széles ablakok száma). A támogatottság meghatározásának egy butuska módszere lenne, ha az eseménysorozaton egyszer˝ uen végigmas´ırozva minden o¨sszef¨ ugg˝o részsorozatnál meghatároznánk, hogy tartalmazza-e az egyes jelölt epizódokat. Hatékonyabb algoritmushoz juthatunk, ha felhasználjuk azt, hogy szomszédos sorozatok között pontosan két elem eltérés van. Vizsgájuk meg az els˝o sorozatot, majd nézz¨ uk az eggyel utána következ˝ot, és ´ıgy tovább addig, am´ıg el nem érj¨ uk az utolsót. Mintha egy ablakot tolnánk végig a sorozaton. Vezetj¨ uk be a következ˝o változókat. Minden i elemhez tartozik : – i.sz´ aml´ al´ o, ami megadja, hogy a jelenlegi o¨sszef¨ ugg˝o részsorozatba hányszor fordul el˝o az i elem. – i.epiz´ odjai lista, amelyben az i elemet tartalmazó epizódok találhatók. Epizódjelöltekhez pedig a következ˝okre lesz sz¨ ukség¨ unk : – j.kezdeti index : annak a legkorábbi elemnek az indexe, amely után minden részsorozatban el˝ofordult az epizód egészen a jelenlegi részsorozatig. – j.sz´ aml´ al´ o, ami megadja, hogy hány kezdeti index el˝otti o¨sszef¨ ugg˝o részsorozatban fordult el˝o j jelölt. A bemenet feldolgozása után e változó fogja tartalmazni a jelölt támogatottságát. – j.hi´ anyz´ as egész szám adja meg, hogy j elemei köz¨ ul hány nem található a jelenlegi o¨sszef¨ ugg˝o részsorozatban. Nyilvánvaló, hogy ha ϕ el˝ofordul a jelenlegi részsorozatban, akkor j.hi´ anyz´ as=0.

Nemzetk¨ ozi tanulm´ anyok ” alapj´ an elmondhatjuk, hogy a magzati fejl˝ odési rendellenességek ( az agykoponya hi´ anya, nyitott h´ atgerinc), tov´ abb´ a a sz´ıv és a vese rendellenességei megel˝ ozhet˝ ok, ha a terhes kismama a fogamz´ ast megel˝ oz˝ oen legal´ abb négy hétig, majd a terhesség els˝ o h´ arom h´ onapj´ aban folsav tartalm´ u kész´ıtményt szed.” Forrás : Baba Patika X. évfolyam 10. szám, 48. oldal, 2007. október :

Elemhalmazok t´ amogatotts´ ag´ anak meghat´ aroz´ asa Amikor lép¨ unk a következ˝o részsorozatra, akkor egy u ´j elem ker¨ ul bele az ablakba, amit jelölj¨ unk iu´j -al, ugyanakkor egy elem elt˝ unik a sorozatból, ezt pedig jelölj¨ uk irégi -vel. Egy elem kilépésének következtében epizódok is kiléphetnek. i régi .sz´ aml´ al´ o seg´ıtségével megállap´ıthatjuk, hogy maradt-e még ilyen elem az ablakban, mert ha igen, akkor az eddig tartalmazott epizódokat az u ´ j ablak is tartalmazza. Ha nem maradt, akkor i.epiz´ odjai és epizódok hi´ anyz´ as számlálója alapján megkaphatjuk azon epizódokat, amelyek kiléptek a sorozatból. Ezek el˝ofordulásának értékét kell növelni. Ebben seg´ıtség¨ unkre van a kezdeti index érték, ami


260

irégi .sz´ aml´ al´ o ← irégi .sz´ aml´ al´ o-1; if( irégi .sz´ aml´ al´ o = 0) forall j in irégi .epiz´ odjai { j.hi´ anyz´ as ← j.hi´ anyz´ as+1; if( j.hi´ anyz´ as = 1) then j.sz´ aml´ al´ o ← j.sz´ aml´ al´ o + j.kezdeti index-jelenlegi index; } 12.2. a´bra. régi elem kilépése megadja, hogy mióta van jelen az epizód a sorozatokban. Az algoritmus pszeudokódja az alábbi a´brán látható. Könny˝ u kitalálni ezek alapján, hogy mit kell tenni egy u ´ j elem belépésénél. Ha az u ´ j elem még nem szerepelt az ablakban, akkor végig kell nézni az u ´ j elemet tartalmazó epizódokat. Azon epizód kezdeti indexét kell a jelenlegi indexre beáll´ıtani, amelyekb˝ol csak ez az egyetlen elem hiányzott (12.3 a´bra). iu´j .sz´ aml´ al´ o ← iu´j .sz´ aml´ al´ o+1; if( eu´j .sz´ aml´ al´ o = 1 ) forall j in iu´j .epiz´ odjai { j.hi´ anyz´ as ← j.hi´ anyz´ as-1; if j.hi´ anyz´ as=0 then j.kezdeti index ← jelenlegi index; } 12.3. a´bra. u ´ j elem belépése

Elemsorozatok t´ amogatotts´ ag´ anak meghat´ aroz´ asa Az elemsorozatok felismerése determinisztikus véges automatákkal történik, amelyek az egyes elemsorozatokat fogadják el. Az epizód alapján az automata el˝oa´ll´ıtása egyszer˝ u, az alábbi a´bra erre mutat példát. A

bármi 0

A

B

más 1

B

C

más 2

C

más 3


261

A teljes elemsorozatot egyesével olvassuk végig az els˝o elemt˝ol kezdve. Ha valamely epizód els˝o eleme megegyezik az éppen olvasott elemmel, akkor u ´ j automatát hozunk létre. Ha ez az elem elhagyja az ablakot, akkor törölj¨ uk az automatát. Amikor egy automata elfogadó a´llapotba lép (jelezve, hogy az epizód megtalálható az ablakban), és nincs ehhez az epizódhoz tartozó másik – szintén elfogadó a´llapotban lév˝o – automata, akkor kezdeti index felveszi az aktuális elem indexét. Amennyiben egy elfogadó a´llapotban lév˝o automatát törl¨ unk, és nincs más, ugyanahhoz az epizódhoz tartozó elfogadó a´llapot´ u automata, akkor a kezdeti index alapján növelj¨ uk az epizód sz´ aml´ al´ oj´ at, hiszen tudjuk, hogy az epizód a kezdeti id˝o utáni o¨sszes részsorozatban megtalálható volt egészen az aktuális részsorozat el˝otti részsorozatig. Vegy¨ uk észre, hogy felesleges adott epizódhoz tartozó, ugyanabban az a´llapotban lév˝o automatákat többszörösen tárolni : elég azt ismernem, amelyik utoljára lépett be ebbe az a´llapotba, hiszen ez fog utoljára távozni. Emiatt j jelölthöz maximum j darab automatára van sz¨ ukség. Egy u ´ j elem vizsgálatakor nem kell az o¨sszes automatánál megnézn¨ unk, hogy u ´ j a´llapotba léphetnek-e, mert az elem epiz´ odjai listájában megtalálható az o˝t tartalmazó o¨sszes epizód. Az el˝oz˝oekben ismertetett epizódkutatási algoritmus olyan adatbányászati problémára adott megoldást, ami az ipari életben mer¨ ult fel, és hagyományos eszközök nem tudták kezelni. Az algoritmus telekommunikációs hálózatok riasztásáról eddig nem ismert, az adatokban rejl˝o információt adott a rendszert u ¨ zemeltet˝o szakembereknek. Err˝ol b˝ovebben a [97][103] [105][104][76] cikkekben olvashatunk.

13. fejezet Gyakori f´ ak ´ es fesz´ıtett r´ eszgr´ afok Amikor gyakori elemhalmazokat kerest¨ unk, akkor azt nézt¨ uk, hogy mely elemek fordulnak el˝o egy¨ utt gyakran. Sorozatok keresésénél ennél továbblépt¨ unk, és azt is nézt¨ uk, hogy milyen sorrendben fordulnak el˝o az elemek, azaz melyek elemek el˝oznek meg más elemeket. Ez már egy bonyolultabb kapcsolat. Még a´ltalánosabb kapcsolatok le´ırására szolgálnak a gráfok : a felhasználási ter¨ ulet entitásainak felelnek meg a gráf cs´ ucsai vagy a cs´ ucsainak c´ımkéi, amelyeket él köt o¨ssze, amennyiben van között¨ uk kapcsolat. A kapcsolat t´ıpusát, s˝ot az entitások jellemz˝oit is kezelni tudjuk, amennyiben a gráf cs´ ucsai és élei c´ımkézettek. Ezt a fejezetet el˝oször a gráf egy speciális esetével a gyökeres fák vizsgálatával kezdj¨ uk, majd rátér¨ unk a gyakori a´ltalános gráfok keresésére. Ellentétben az elemhalmazokkal vagy a sorozatokkal a támogatottságot megadó illeszkedési predikátumot a gráfoknál többféleképpen definiálhatjuk : részgráf, fesz´ıtett részgráf, topologikus részgráf. Ez tovább b˝ov´ıti a megoldandó feladatok körét.

13.1. Az izomorfia probl´ em´ aja Ha gráfokra gondolunk, akkor szem¨ unk el˝ott vonalakkal – irány´ıtott gráfok esetében nyilakkal – o¨sszekötött pontok jelennek meg. C´ımkézett gráfoknál a pontokon és/vagy az éleken c´ımkék, a´ltalában számok szerepelnek. K¨ ulönböz˝o pontoknak lehetnek azonos c´ımkéi. Egy ilyen pontokat és vonalakat tartalmazó rajz a gráf egy lehetséges a´brázolása. Matematikailag egy gráf egy páros, amelynek els˝o eleme egy alaphalmaz, a második eleme ezen alaphalmazon értelmezett bináris reláció. K¨ ulönböz˝o gráfoknak lehet azonos a rajzuk. Például a G1 = ({a, b}, {a, b}) és a G1 = = ({a, b}, {b, a}) gráfok rajza ugyanaz lesz : az egyik pontból egy ny´ıl indul a másik pontba. Ugyan´ ugy azonos a´brát kész´ıtenénk, ha az egyetlen élnek c´ımkéje lenne, vagy a két pontnak ugyanaz lenne a c´ımkéje. Az alkalmazások többségében a gráf rajza, topológiája továbbá a c´ımkék az érdekesek és nem az, hogy a pontokat hogyan azonos´ıtjuk annak érdekében, hogy a bináris relációt fel tudjuk ´ırni. Ezen alkalmazásokban nem akarjuk megk¨ ulönböztetni az izomorf gráfokat (pontos defin´ıciót lásd alapfogalmak gráfelmélet részében). Ez a helyzet a´ll fenn, például amikor kémiai vegy¨ uleteket vizsgálunk. Itt a gráf c´ımkéi jellemzik az atomot (esetleg még további információt, pl. töltést) az élek a kötést, az élek c´ımkéi pedig a kötés t´ıpusát (egyszeres kötés, kétszeres kötés, aromás kötés) Amikor gyakori gráfokat keres¨ unk, akkor mindenképpen el kell dönten¨ unk, hogy az izomorf gráfokat megk¨ ulönböztetj¨ uk, vagy nem. Miel˝ott 262

´ ES ´ FESZÍTETT RESZGR ´ ´ 13. FEJEZET. GYAKORI FAK AFOK

263

rátér¨ unk a gyakori gráfok keresésére járjuk egy kicsit kör¨ ul az izomorfia kérdését. Két gráf izomorfiájának eldöntésére nem ismer¨ unk polinom idej˝ u algoritmust, s˝ot azt sem tudjuk, hogy a feladat NP-teljes-e. Hasonló feladat a részgr´ af izomorfia kérdése, ahol azt kell eldönteni, hogy egy adott gráf izomorf-e egy másik gráf valamely részgráfjával. Ez a feladat NP-teljes. Ha ugyanis az egyik gráf egy k-cs´ ucs´ u teljes gráf, akkor a feladat az, hogy keress¨ unk egy gráfban k-cs´ ucs´ u klikket, ami bizony´ıtottan NP-teljes. Szerencsére kisebb méret˝ u gráfok esetében az izomorfia eldöntése egyszer˝ ubb algoritmusokkal is megoldható elfogadható id˝on. A két legismertebb részgráf izomorfiát eldönt˝o algoritmus Ullmanntól a backtracking [176] és B.D.McKaytól a Nauty [117]. A gráf izomorfiát eldönt˝o módszerek a cs´ ucsok invari´ ansait használják. Az invariáns tulajdonképpen egy tulajdonság. Például invariáns a cs´ ucs c´ımkéje, fokszáma, illetve irány´ıtott gráfok esetében a befok és a kifok is két invariáns. Amennyiben a G 1 , G2 gráfok a φ bijekció alapján izomorfak, akkor az u cs´ ucs minden invariánsa megegyezik a φ(u) cs´ ucs megfelel˝o invariánsaival a G1 minden u cs´ ucsára. Ez tehát egy sz¨ ukséges feltétel : az u cs´ ucshoz csak azt a cs´ ucsot rendelheti a bijekció, amelynek invariánsai páronként azonosak az u invariánsaival. Az izomorfia eldöntésének na´ıv módszere az lenne, ha az o¨sszes bijekciót megvizsgálnánk egyesével. Egy bijekció a cs´ ucsoknak egy permutációja, ´ıgy n cs´ ucs´ u gráfok esetében n! bijekció létezik. Csökkenthetj¨ uk ezt a számot az invariánsok seg´ıtségével. Osszuk részekre a cs´ ucsokat. Egy csoportba azon cs´ ucsok ker¨ uljenek, amelyeknek páronként minden invariánsuk azonos. Nyilvánvaló, hogy az olyan bijekciókat kell megvizsgálni, amelyek csak ugyanazon invariánsok a´ltal le´ırt csoportba tartoznak. Ha az invariánsokkal ucsokat szétosztottuk a V 1 , . . . , Vk Qka V cs´ csoportokba, akkor a szóba jöv˝o bijekciók száma i=1 |Vi |-re csökken. Minél több csoportot hoznak létre az invariánsok annál többet nyer¨ unk ezzel az egyszer˝ u tr¨ ukkel. Az invariánsok nem csökkentik asszimptotikusan a szám´ıtás komplextását. Ha például a gráf reguláris és a cs´ ucsoknak nincsenek c´ımkéj¨ uk, akkor minden cs´ ucs azonos csoportba ker¨ ul, azaz nem nyer¨ unk a tr¨ ukkel semmit. Eddigi ismereteink alapján elmondhatjuk, hogy minél bonyolultabb gyakori mintát keres¨ unk, annál nehezebb a felA leg´ ujabb kutat´ asok szerint bi” adat és annál er˝oforrás-igényesebbek a megoldó algoritmu- zonyos vitaminok képesek a hib´ as sok. A c´ımke nélk¨ uli gráfok egy a´ltalános´ıtása a c´ımkézett gének okozta fejl˝ odési rendellegráfok, ´ıgy azt várjuk, hogy c´ımkézett gráfokhoz még több nességek kivédésére.” Forrás : Baszám´ıtást kell majd végezni. Az el˝obb bemutatott módszer ba Patika X. évfolyam 10. szám, szerencsére az ellenez˝ojét a´ll´ıtja, hiszen a c´ımke egy inva- 44. oldal, 2007. október riáns, ami u ´ jabb csoportokat hozhat létre. S˝ot minél több a c´ımke, annál több a csoport és annál gyorsabban döntj¨ uk el, hogy két gráf izomorf-e. A gráf izomorfiából sz¨ uletett probléma a gráfok kanonikus k´ odol´ as´ anak problémája. 13.1. defin´ıci´ o. A gr´ afok kanonikus kódolása (vagy kanonikus c´ımkézése) egy olyan k´ odol´ as, amely az izomorf gr´ afokhoz és csak azokhoz azonos k´ odsorozatot rendel. Nyilvánvaló, hogy egy kanonikus kódolás el˝oa´ll´ıtása ugyanolyan nehéz feladat, mint két gráf izomorfiájának eldöntése, hiszen két gráf izomorf, ha kanonikus kódjaik megegyenek. Például egy egyszer˝ u kanonikus kód az, amit u ´ gy kapunk, hogy a gráf szomszédossági mátrix oszlopai permutálásai köz¨ ul kiválasztjuk azt, amely elemeit valamely rögz´ıtett sorrendben egymás után ´ırva a legkisebbet kapjuk egy el˝ore definiált lexikografikus rendezés szerint.


264

A szomszédossági mátrix alap´ u kanonikus kód el˝oa´ll´ıtásához szintén az invariánsokat célszer˝ u használni. Ezáltal az oszlopok o¨sszes permutációjához tartozó kódok kiértékelése helyett egy oszlopot csak a saját csoportján bel¨ uli oszlopokkal kell permutálni. 1 A 2 3

B

A 4

13.1. a´bra. Példa kanonikus kódolásra Nézz¨ uk példaként a 13.1 a´brán látható cs´ ucs- és élc´ımkézett gráfot (a cs´ ucsokban szerepl˝o számok a cs´ ucsok azonos´ıtói). Legyen cimke(1) = e, cimke(2) = e, cimke(3) = e, cimke(4) = = f . A cs´ ucsok c´ımkéi szerint két csoportot hozunk létre. Ha figyelembe vessz¨ uk a fokszámot is, akkor a nagyobb csoportot két részre osztjuk ({1,3}, {2}, {4}). A 4 !=24 kombináció helyett csak 2 !=2 permutációt kell kiértékeln¨ unk, ami alapján megkapjuk a kanonikus kódot : he000A0e0A00f BAABei lesz, ha a c´ımkéken az abc szerinti rendezést vessz¨ uk és a 0 minden bet˝ ut megel˝oz.

13.2. A gyakori gr´ af fogalma Annak alapján, hogy az izomorf gráfokat megk¨ ulönböztetj¨ uk, vagy nem a gyakori gráfok kinyerésének feladatát két csoportra osztjuk. Legyen V = {v 1 , v2 , . . . , vm } cs´ ucsok halmaza. A mintakörnyezet ekkor az M K = ({G1 = (V1 , E1 ), G2 = (V2 , E2 ), . . .}, ) pár, ahol Vi ⊆ V, minden gráf o¨sszef¨ ugg˝o és Gi Gj , amennyiben Gi a Gj -nek részgráfja. A bemenet szintén olyan gráfok sorozata, amelyek cs´ ucshalmaza V-nek részhalmazai. A gráfok cs´ ucsainak és/vagy éleinek lehetnek c´ımkéi. A továbbiakban az élek és cs´ ucsok c´ımkéjét a c E és cV f¨ uggvények adják meg. Az a´ltalánosság megsértése nélk¨ ul feltehetj¨ uk, hogy a c´ımkék pozit´ıv egész számok. A támogatottságot illeszkedési predikátum alapján definiáljuk. Attól f¨ ugg˝oen, hogy a cs´ ucsok értéke fontos, vagy csa a c´ımkéj¨ uk, az illeszkedést kétféleképpen definiálhatjuk : G 0 gráf illeszkedik a G bemeneti gráfra, ha – G0 részgráfja/fesz´ıtett részgráfja/topologikus részgráfja G-nek, – létezik G-nek olyan részgráfja/fesz´ıtett részgráfja/topologikus részgráfja, amely izomorf G0 -vel. A fenti lehet˝oségek köz¨ ul az alkalmazási ter¨ ulet ismerete alapján választhatunk. A topologikus részgráf fogalma nem tartozik az alapfogalmak közé, ´ıgy ennek jelentését meg kell adnunk. 13.2. defin´ıci´ o. A G0 = (V 0 , E 0 ) gr´ af a G = (V, E) gr´ af topologikus részgr´ afja, ha V 0 ⊆ V és 0 (u, v) ∈ E akkor és csak akkor, ha u-b´ ol vezet u ´t v-be a G gr´ afban. Gráfok esetében használt fogalom a s´ ulyozott t´ amogatotts´ ag, melynek kiszám´ıtásához illeszkedési predikátum helyett illeszkedési f¨ uggvényt használunk. Az illeszkedési f¨ uggvény megadja a bemeneti gráf k¨ ulönböz˝o részgráfjainak/fesz´ıtett részgráfjainak/topologikus részgráfjainak


265

számát, amely azonosak/izomorfak a mintagráffal. A G gráf s´ ulyozott támogatottsága a bemeneti elemeken vett illeszkedési f¨ uggvény o¨sszege. Miel˝ott rátérnénk az a´ltalános eset tárgyalására nézz¨ uk meg, hogyan lehet kinyerni a gyakori c´ımkézett fákat.

13.3. gyakori gy¨ okeres f´ ak Ebben a részben feltessz¨ uk, hogy a mintatér és a bemeneti sorozat elemei cs´ ucsc´ımkézett gyökeres fák. Egy fa mérete a cs´ ucsainak számát adja meg. Csak a c´ımkék fontosak, ezért az illeszkedési predikátumnak a második fajtáját használjuk : akkor illeszkedik egy mintafa egy bementi fára, ha annak létezik olyan topologikus részgráfja, amellyel a mintafa izomorf. A gyakori fák kinyerése hasznos a bioinformatikában, a webelemzésnél, a félig strukturált adatok vizsgálatánál stb. Az egyik legszemléletesebb felhasználási ter¨ ulet a webes szokások elemzése. Gyakori elemhalmaz-kinyer˝o algoritmussal csak azt tudnánk megállap´ıtani, hogy melyek a gyakran látogatott oldalak. Ha gyakori szekvenciákat keres¨ unk, akkor megtudhatjuk, hogy az emberek milyen sorrendben látogatnak el az oldalakra leggyakrabban. Sokkal életh˝ ubb és hasznosabb információt kapunk, ha a weboldalakból felép´ıtett gyakori fákat (vagy erd˝oket) keres¨ unk. Egy internetez˝o viselkedését egy fa jobban reprezentálja, mint egy sorozat. Rendezett gyökeres fáknál további feltétel, hogy az egy cs´ ucsból kiinduló élek a gyerek cs´ ucs c´ımkéje szerint rendezve legyenek. Ez tulajdonképpen egy a´tmenet afelé, hogy az izomorf gráfokat ne k¨ ulönböztess¨ uk meg, vagy másként szólva a mintatérben ne legyenek izomorf gráfokat. Ha a c´ımkék rendezése abc szerint történik, akkor például a következ˝o 3 fa köz¨ ul csak az els˝o tartozik a mintatér elemei közé. C A

B

C B

B

C

A

B

B

B

A

13.2. a´bra. Példa : rendezés nélk¨ uli, c´ımkézett, gyökeres fák A rendezettség nem biztos´ıtja azt, hogy a mintatérben ne legyenek izomorf fák. Például a következ˝o a´brán látható két rendezett fa izomorf egymással, és mindketten a mintatérnek elemei. C B A

C B

B

B A

13.3. a´bra. Példa : izomorf rendezett, gyökeres fák Mivel az illeszkedés során izomorf részfákat keres¨ unk, ezért feltehetj¨ uk, hogy a fa cs´ ucsai természetes számok, és az i cs´ ucs azt jelenti, hogy a cs´ ucsot az i-edik lépésben látogatjuk meg a gráf preorder, mélységi bejárása során. Legyen a gyökér cs´ ucs a 0. Az F fa i cs´ ucsjának c´ımkéjét cF (i)-vel a sz¨ ul˝ojét pedig szuloF (i)-vel jelölj¨ uk. Elhagyjuk az F alsó indexet azokban az esetekben, ahol ez nem okozhat félreértést.

´ ES ´ FESZÍTETT RESZGR ´ ´ 13. FEJEZET. GYAKORI FAK AFOK F 0 1 3 1

2

1

F0

F00

1

0 2

1

2

266

2

2

2 2

13.4. a´bra. Példa : gyökeres részfák tartalmazására A 13.4 a´brán egy példát láthatunk illeszkedésre (topologikus részfára). A fák cs´ ucsaiba ´ırt 0 00 számok a cs´ ucsok c´ımkéit jelölik. Az F és F is illeszkedik a F fára. Amennyiben egy gráf ritka (kevés élet tartalmaz), akkor azt szomszédossági listával (lásd alapfogalmak 2.3 rész) célszer˝ u le´ırni. Fák esetében a c´ımkel´ ancok még kevesebb helyet igényelnek a memóriából. A c´ımkeláncot u ´ gy kapjuk meg, hogy bejárjuk a fát preorder, mélységi bejárás szerint, és amikor u ´ j cs´ ucsba lép¨ unk akkor hozzá´ırjuk az eddigi c´ımkelánchoz az u ´ j cs´ ucs c´ımkéjét. Amikor visszalép¨ unk, akkor egy speciális c´ımkét (*) ´ırunk. Például az el˝oz˝o a´brán F c´ımkelánca : F =0,1,3,1, ∗,2, ∗, ∗,2, ∗, ∗,2, ∗ és F 0 =1,1, ∗,2, ∗. C´ımkesorozatnak h´ıvjuk és l(F )-vel jelölj¨ uk azt a sorozatot, amit a F gráf c´ımkeláncából kapunk meg, ha elhagyjuk a ∗ szimbólumot. Nyilvánvaló, hogy a c´ımkesorozat – a c´ımkelánccal ellentétben – nem o˝rzi meg a fa topológiáját. Hasonlóan a gyakori elemhalmazok kereséséhez most is megk¨ ulönböztet¨ unk horizontális és vertikális adatábrázolási módot. Horizontális a´brázolásnál a bemenet gráfok le´ırásának (például c´ımkelánc) sorozata. Vertikális tárolásnál minden c´ımkéhez tartozik egy párokból a´lló sorozat. Az i c´ımkéhez tartozó sorozatban a (j, k) pár azt jelenti, hogy a j-edik bemeneti gráf preorder bejárás szerinti k-adik cs´ ucs c´ımkéje i.

13.3.1. TreeMinerH A TreeMinerH [189] az APRIORI sémára ép¨ ul (annak ellenére, hogy Zaki publikálta). Nézz¨ uk meg, hogyan a´ll´ıtjuk el˝o a jelölteket és hogyan határozzuk meg a támogatottságukat. Jel¨ oltek el˝ o´ all´ıt´ asa Egy `-elem˝ u jelöltet két (` − 1)-elem˝ u gyakori fa (F 0 és F 00 ) illesztésével (jelölésben : ⊗) kapjuk meg. Hasonlóan az eddigiekhez a két (` − 1)-elem˝ u fa csak a legnagyobb elem¨ ukben k¨ ulönböznek, amely eset¨ unkben azt jelenti, hogy ha elhagynánk a legnagyobb cs´ ucsot (és a hozzá tartozó élt), akkor ugyanazt a fát kapnánk. Az a´ltalánosság megsértése nélk¨ ul feltehetj¨ uk, 0 0 00 hogy szuloF (` − 1) ≤ szuloF (` − 1). A potenciális jelölt a G gráf egy cs´ uccsal való b˝ov´ıtése lesz, ahol az u ´ j cs´ ucs c´ımkéje a cF 00 (` − 1) lesz. Kételem˝ u (egy élt tartalmazó) jelöltek el˝oa´ll´ıtásánál nincs sok választás : az u ´ j élt egyetlen helyre illeszthetj¨ uk. Ha ` > 2, akkor két esetet kell megk¨ ulönböztetn¨ unk. Az els˝o esetben szuloF 0 (`−1) = szuloF 00 (`−1). Ekkor két jelöltet a´ll´ıtunk el˝o. Az els˝oben az u ´ j élt a szulo(`−1) cs´ ucshoz, a másodikban a szulo(`−1)+1 cs´ ucshoz kapcsoljuk. Ha szulo F 0 (`−1)<szuloF 00 (`−1), akkor az u ´ j élt a szuloF 00 (`−1)-hez csatoljuk. Jelölt-el˝oa´ll´ıtásra mutat példát a következ˝o a´bra :

´ ES ´ FESZÍTETT RESZGR ´ ´ 13. FEJEZET. GYAKORI FAK AFOK F0

F 00

1

1

2

4

267

2 3

F0 ⊗F0

F 0 ⊗ F 00

1 2

4

1 4

2

F 00 ⊗ F 00 1

4 4

2

4 3

3

1

1

2

2 3

3 3

13.5. a´bra. Példa jelöltek el˝oa´ll´ıtására Szokásos módon a jelöltek el˝oa´ll´ıtásának második lépésében minden ` − 1 elem˝ u részfát ellen˝orizni kell, hogy gyakori-e. T´ amogatotts´ ag meghat´ aroz´ asa Az egy- és kételem˝ u fák támogatottságát vektorral, illetve tömbbel célszer˝ u meghatározni. A vektor i-edik eleme tárolja a támogatottságát az i-edik c´ımkének. A tömb i-edik sorának j-edik eleme tárolja a támogatottságát annak a kételem˝ u fának, amelyben a gyökér c´ımkéje az i-edik gyakori c´ımke, a másik cs´ ucs c´ımkéje a j-edik gyakori c´ımke. A kett˝onél nagyobb elemszám´ u fák támogatottságának meghatározásánál szófa jelleg˝ u adatstrukt´ urát javasoltak. A fát a fák c´ımkesorozatai alapján ép´ıtj¨ uk fel, de a levelekben a c´ımkeláncot tároljuk. Egy levélben több jelöltfa is lehet, hiszen k¨ ulönböz˝o fáknak lehet azonos a c´ımkeláncuk. Amikor egy bemeneti fára illeszked˝o jelölteket kell meghatároznunk, akkor a bemenet c´ımkesorozata alapján eljutunk azokhoz a jelöltekhez, amelyek illeszkedhetnek a bemeneti fára. Egy jelölt c´ımkesorozatának illeszkedése sz¨ ukséges feltétele annak, hogy maga a jelölt is illeszkedjen a bemeneti fára. Ha eljutunk egy levélbe, akkor az ott található c´ımkesorozatok mindegyikét megvizsgáljuk egyesével, hogy topologikusan illeszkedik-e a bemenet c´ımkeláncra. Ennek részleteit nem ismertetj¨ uk.

13.3.2. TreeMinerV A TreeMiner algoritmus [190] Zaki módszerét használja. A vertikális adatbázisból kiindulva el˝oa´ll´ıtja a egyelem˝ u fák illeszkedési listáit és a továbbiakban már csak ezen listákkal dolgozik. Zaki módszerét ismertett¨ uk a 11.5.2 részben, a jelölt-el˝oa´ll´ıtás pedig megegyezik a TreeMinerH jelölt-el˝oa´ll´ıtásának els˝o lépésével. Csak azt kell tisztáznunk, hogyan határozzuk meg a


268

jelöltek támogatottságát. Jel¨ oltek t´ amogatotts´ ag´ anak meghat´ aroz´ asa Az egyelem˝ u jelöltek meghatározásához ismét elegend˝o egy lista, a kételem˝ u jelöltekhez pedig egy tömb. A kett˝onél nagyobb méret˝ u jelöltek meghatározásának kulcsa az illeszkedési lista. A kiinduló illeszkedési listákat (amelyek az egyelem˝ u gyakori fákhoz tartoznak) kételem˝ u jelöltek meghatározása közben ép´ıtj¨ uk fel. Az a f˝o kérdés, hogy miként kell definiálni az illeszkedési listákat c´ımkézett gyökeres fák esetében ahhoz, hogy teljes¨ uljön a két elvárás (emlékeztet˝ou ¨ l : a támogatottság egyértelm˝ uen meghatározható legyen bel˝ole, és a jelöltek illeszkedési listáit a generátoraiból el˝o tudjuk a´ll´ıtani). A fogalmak szemléltetésére a 13.6 a´brán található fákat fogjuk használni. Jelölj¨ uk egy F0

F1

A

B

F2 B

C

D

A

B

B

D

A

C

C

E

B

A

B

C

D

13.6. a´bra. Példaadatbázis : c´ımkézett gyökeres fák tetsz˝oleges F gyökeres fa j cs´ ucsából induló részfa legnagyobb sorszámát M AX F (j)-vel. Például M AXF0 (0) = 3, M AXF2 (4) = 7,M AXF2 (1) = 2. Az `-elem˝ u F fa illeszkedési listájának minden eleme F -nek egy el˝ofordulását rögz´ıti. Tegy¨ uk fel, hogy a F fa része az i-edik bementi fának (Fi -nek) és a tartalmazás injekt´ıv f¨ uggvényét f -el jelölj¨ uk. Ekkor az illeszkedési lista ezen illeszkedését le´ıró eleme a következ˝o 4es : i, hf (0), f (1), . . . , f (`−1)i, f (`), M AXFi (f (`)) . Nyilvánvaló, hogy az illeszkedési listából a támogatottság és a s´ ulyozott támogatottság is könny˝ uszerrel meghatározható. Már csak azt kell megnézn¨ unk, hogy a´ll´ıtjuk el˝o a jelölt illeszkedési listáját, azaz hogyan illeszt¨ unk két illeszkedési listát. Két illeszkedési lista illesztésének alapfeltétele, hogy a 4-esek els˝o két tagjai megegyezzenek, hiszen azonos gráfban lév˝o illeszkedéseket keres¨ unk (1. tag) és a generátorok prefixei azonosak 0 00 (2. tag). Emléksz¨ unk, hogy a F , F illesztésénél két esetet k¨ ulönböztett¨ unk meg, attól f¨ ugg˝oen, 0 hogy az u ´ j cs´ ucsot F legnagyobb sorszám´ u elemének testvére lesz vagy gyereke. Jelölj¨ uk a két fa illeszkedési listáinak 3. és 4. tagját f (`), M AXFi (f (`)) és f 0 (`), M AXFi (f 0 (`))-el.


269

Az els˝o t´ıpus´ u illesztés feltétele, hogy M AXFi (f (`))
13.4. Gyakori r´ eszf´ ak ¨ FOLYT. KOV. k 1.5 Fák esetében a részfa izomorfia eldöntésére létezik polinom idej˝ u (pontosabban O(n log ), k ahol k a mintafa, n a másik fa cs´ ucsainak száma) algoritmus [157]. ¨ FOLYT. KOV.

13.5. A gyakori fesz´ıtett r´ eszgr´ afok Ebben a részben bemutatjuk a legismerteb gyakori fesz´ıtett részgráfokat kiny˝o algoritmust. A MK = (G, )-ben mintatér elemei c´ımkézett egymással nem izomorf gráfok és G 0 G, ha G0 a G-nek fesz´ıtett részgráfja. A gráf méretét a cs´ ucsainak száma adja meg. A bemenet c´ımkézett gráfok sorozata. A G gráf támogatottságán azon bemeneti elemek a számát értj¨ uk, amelyeknek létezik G-vel izomorf fesz´ıtett részgráfjuk (fesz´ıtett részgráf fogalma lásd alapfogalmak 2.3 rész).

13.5.1. Az AcGM algoritmus Az AcGM algoritmus [82] – ami az AGM jav´ıtott változata [81] – a gyakori fesz´ıtett részgráfokat nyeri ki. Az algoritmus az APRIORI sémát követi. Ahhoz, hogy az o¨sszes o¨sszef¨ ugg˝o fesz´ıtett részgráfot megtalálja el˝oa´ll´ıtja a félig o ¨sszef¨ ugg˝ o fesz´ıtett részgráfokat is. Egy gráf félig o¨sszef¨ ugg˝o, ha o¨sszef¨ ugg˝o, vagy két o¨sszef¨ ugg˝o komponensb˝ol a´ll, ahol az egyik komponens egyetlen cs´ ucsot tartalmaz. Az egész algoritmus során a gráfok szomszédsági mátrixszaival dolgozunk. A szomszédossági mátrix eredeti defin´ıciója alapján nem tárolja a c´ımkéket, ezért ebben a részben a G = =(V, E, cV , cE ) gráf f bijekciójához tartozó AG,f szomszédossági mátrixának elemei (aij a mátrix


270

i-edik sorának j-edik elemét jelöli) :   , ha i 6= j és (f −1 (i), f −1 (j)) ∈ E, c(eij ) ai,j = c(f −1 (i)) , ha i = j,   0 , k¨ ulönben

Az AG,f elemeib˝ol és a cs´ ucsok c´ımkéib˝ol egy kódot rendelhet¨ unk a G gráfhoz : CODE(AG,f ) = a1,1 , a2,2 , . . . , ak,k , cV (f −1 (k)a1,2 , a1,3 , a2,3 , a1,4 , . . . , ak−2,k , ak−1,k , azaz el˝oször felsoroljuk a cs´ ucsok c´ımkéit, majd a szomszédossági mátrix fels˝o háromszögmátrixának elemeit. K¨ ulönböz˝o bijekciók k¨ ulönböz˝o szomszédossági mátrixot, és ´ıgy k¨ ulönböz˝o kódokat eredményeznek. Amennyiben a c´ımkéken tudunk egy rendezést definiálni, akkor a kódokat is tudjuk rendezni. Legyen a G gráf kanonikus kódolása az a kód, amelyik a legnagyobb ezen rendezés szerint. A kanonikus kódhoz tartozó szomszédossági mátrixot kanonikus szomszédoss´ agi m´ atrixnak h´ıvjuk. Az eddigiekhez hasonlóan most is azt kell tisztáznunk, hogy miként a´ll´ıtjuk el˝o a jelölteket és hogyan határozzuk meg a támogatottságukat. Jel¨ oltek el˝ o´ all´ıt´ asa Az X = AG0 ,f és Y = AG00 ,g ` × ` méret˝ u szomszédossági mátrixokat, ahol G0 o¨sszef¨ ugg˝o, G00 pedig félig o¨sszef¨ ugg˝o gráf, akkor illesztj¨ uk, ha teljes¨ ul három feltétel : – Ha az X és Y -ból törölj¨ uk az utolsó sort és oszlopot, akkor azonos (T ) mátrixot kapunk, és a cs´ ucsok c´ımkéi is rendre megegyeznek : T y1 T x1 . , Y` = T X` = y2 yl,l xT2 xl,l – T egy kanonikus szomszédossági gráf. – ha xl,l = yl,l , akkor legyen code(X) < code(Y ), ellenkez˝o esetben xl,l < yl,l vagy G0 ne legyen o¨sszef¨ ugg˝o. A potenciális jelölt szomszédossági mátrixa a következ˝o lesz :   T x1 y1 xl,l z`,`+1  , Z`+1 = xT2 T y2 z`+1,` yl,l

ahol z`,`+1 és z`+1,` 0-át és az o¨sszes lehetséges élc´ımke értékét felvehetik. Irány´ıtatlan gráfok esetében a két értéknek meg kell egyeznie. Az ilyen módon létrehozott szomszédossági mátrixot a szerz˝ok norm´ al form´ aj´ u szomszédossági mátrixnak nevezik. Az els˝o feltétel szerint nem csak azt várjuk el, hogy a két illesztend˝o mintának legyen (` − −1)-elem˝ u közös részmintája, hanem még azt is, hogy ez a részminta mindkét generátor prefixe is legyen. Tulajdonképpen ez biztos´ıtja azt, hogy az illesztésként kapott jelölt mérete ` + 1


271

legyen. Ha a második és harmadik feltételnek nem kellene teljes¨ ulnie, akkor sokszor ugyanazt a potenciális jelöltet hoznánk létre. Az algoritmus nem lenne teljes, amennyiben csak o¨sszef¨ ugg˝o B C D gráfok lehetnének a generátorok. Az A gráfot például a fenti jelölt el˝oa´ll´ıtással nem lehetne kinyerni. Nézz¨ unk egy példát. A következ˝o a´brán két gyakori 3 cs´ ucs´ u gráfot láthatunk, amelyb˝ol a jelölt el˝oa´ll´ıtás során a jobb oldalon látható gráfot hozzuk létre. Az els˝o gráf szomszédossági 0 1 0 0 1 0 mátrixa 1 0 1 , a másodiké 1 0 1 , az illesztés során kapott szomszédossági mátrix pedig 0 1 0 0 1 0 0 0 1 0 1 0 1 1 . 0 1 0 z 0 1 z 0

G0 A

B

G00

⊗

B

A

B

G0 ⊗ G00

→

C

A

B

B

C

13.7. a´bra. Példa jelöltek el˝oa´ll´ıtására A jelölt-el˝oa´ll´ıtás második fázisában minden ` elem˝ u fesz´ıtett részgráfról el kell dönteni, hogy gyakori-e. Amennyiben az o¨sszes részgráf gyakori, akkor a potenciális jelölt valódi jelölt lesz, ami azt jelenti, hogy meg kell határozni a támogatottságát. Sajnos ez a második lépés nem annyira egyszer˝ u, mint elemhalmazok, sorozatok, gyökeres fák esetében. A fesz´ıtett részgráf egy szomszédossági mátrixát megkaphatjuk, ha törölj¨ uk a mátrix adott index˝ u sorát és oszlopát. A problémát az okozza, hogy az ´ıgy kapott mátrix nem biztos, hogy normál formáj´ u lesz. Az AcGM a következ˝o módszerrel alak´ıtja a´t a részmátrixot normál formáj´ uvá. FOLYT. KOV. t´ amogatotts´ agok meghat´ aroz´ asa A jelöltek el˝oa´ll´ıtása után rendelkezés¨ unkre fog a´llni egy nagy halom normál formáj´ u szomszédossági mátrix. Ugyanannak a gráfnak több normál formáj´ u szomszédossági mátrixa létezik ezért minden mátrixhoz hozzá kell rendelni az a´ltala reprezentált gráf kanonikus kódját. FOLYT. KOV. Ha az azonos gráfot reprezentáló normál formáj´ u szomszédossági mátrixok köz¨ ul ki tudtuk választani a normál formáj´ u szomszédossági mátrixot, akkor a továbbiakban már csak ezekkel dolgozunk, tehát csak ezekhez rendel¨ unk – kezdetben 0 érték˝ u – számlálókat. A bemeneti gráfokat egyesével vessz¨ uk és minden jelöltet megvizsgálunk, hogy izomorf-e a bemeneti gráf valamely fesz´ıtett részgráfjával. Feltételezz¨ uk, hogy a bemeneti mátrix kanonikus szomszédossági mátrixa rendelkezés¨ unkre a´ll. Ez a részfeladat tulajdonképpen a részgráf izomorfia feladata, amir˝ol tudjuk, hogy NP-teljes. A feladatot azonban gyorsan megoldhatjuk, ha tudjuk, hogy a jelölt `-elem˝ u fesz´ıtett részgráfja a bemeneti gráf melyik fesz´ıtett részgráfjával volt izomorf. Nem kell mást tenn¨ unk, mint megvizsgálni, hogy az u ´ j cs´ ucs és a hozzá tartozó él illeszkedik-e a bemeneti gráf részgráfjára.


272

13.6. A gyakori r´ eszgr´ afok keres´ ese Ebben a részben feltessz¨ uk, hogy a mintatér elemei o¨sszef¨ ugg˝o gráfok és G 0 G, ha G0 a G gráfnak részgráfja. Eben a mintakörnyezetben egy gráf méretét az éleinek száma adja meg. A bemenet c´ımkézett gráfok sorozata. A G gráf támogatottságán azon bemeneti elemeknek a számát értj¨ uk, amelyeknek létezik G-vel izomorf részgráfja. Bemutatjuk a két legismertebb algoritmust az FSG-t és a gSpan-t.

13.6.1. Az FSG algoritmus Az FSG algoritmus [100] az APRIORI sémára ép¨ ul. A gráfok tárolásához szomszédossági listát használ. Amikor egy gráfnak el˝o kell a´ll´ıtani a kanonikus kódját, akkor a szomszédssági listát szomszédossági mátrixá alak´ıtja. Amennyiben a gráfok ritkák, a szomszédossági listák kevesebb helyet igényelnek, mint a mátrixok. Megszokhattuk már, hogy a f˝o lépés a jelöltek el˝oa´ll´ıtása. Jel¨ oltek el˝ o´ all´ıt´ asa Két `-elem˝ u G1 = (V1 , E1 ), G2 gráfot akkor illeszt¨ unk, ha van (`−1)-elem˝ u közös részgráfjuk (ezt h´ıvtuk magnak), és az G1 kannonikus kódja nem nagyobb G2 kannonikus kódjánál. Ez azt jelenti, hogy minden gráfot o¨nmagával is illeszt¨ unk. Két gráf illesztésénél – akárcsak két elemsorozatok esetében – több gráf jön létre. Jelölj¨ uk a G2 -nek a magba nem tartozó élét e = = (u, v)-vel. Az el˝oa´ll´ıtott gráfok a G1 b˝ov´ıtése lesz egy olyan e0 = (u0 , v 0 ) éllel, amelyre u0 ∈ V1 , e0 6∈ E1 , cE (e) = cE (e0 ), cV (u) = cV (u0 ) és cV (v) = cV (v 0 ). Tehát egy megfelel˝oen c´ımkézett élt helyez¨ unk be a G1 gráfba. Ezt többféleképpen tehetj¨ uk, ´ıgy több potenciális jelöltet hozunk létre. Lehet, hogy az u ´ j él u ´ j cs´ ucsot is fog eredményezni, de az is lehet, hogy csak két meglév˝o pont között h´ uzunk be egy u ´ j élt. Ezt szemlélteti a 13.8 a´bra.

G1 A

A

A

B

A Z

X Y

G1 ⊗ G 2

G2

A

X

B

→

A

YZ

A Z

X B

A

A

X X

B

13.8. a´bra. Példa : gráf illesztése Az el˝oa´ll´ıtott potenciális jelöltek számát növeli az a tény is, hogy a magnak több automorfizmusa lehet, ´ıgy az u ´ j élt több cs´ ucshoz is illeszthetj¨ uk. Erre mutat példát a következ˝o a´bra. A harmadik ok, amiért két gráf több potenciális jelöltet a´ll´ıthat el˝o az, hogy két gráfnak több közös részgráfja (magja) is lehet. Egy ilyen eset látható a 13.10 a´brán. Miután el˝oa´ll´ıtottuk a potenciális jelölteket, minden potenciális jelölt (` − 1)-elem˝ u részgráfját ellen˝orizz¨ uk, hogy gyakori-e. Azok a potenciális jelöltek leszenek jelöltek, amelyek minden valódi részhalmaza gyakori és még nem vett¨ uk fel a jelöltek közé. Ez utóbbi feltétel már sejteti, hogy a fenti jelölt-el˝oa´ll´ıtás nem ismétlés nélk¨ uli. Az algoritmus a gráfok kanonikus


G1 C X A

Y

G1 ⊗ G 2

G2 B

C

→

Z

A

A

Y

A

B

C

Y

B Z

X

Z A

273

A

A

Y

X A

13.9. a´bra. Példa : gráf illesztése - mag automorfizusok

G2

G1 A

A

A

A

G1 ⊗ G 2

A

A

A

A

A

A

A

B

A

A

A

A

B

A

A

A

A

B

A

A

→ B

A

A

B

Egyik mag

A

A

B

M´ asik mag A

B

A

A

A

A

A

A

B

13.10. a´bra. Példa : gráf illesztése - több közös mag kódolását használja annak eldöntésére, hogy egy potenciális jelölt adott részgráfja gyakori-e, illetve a jelölt szerepel-e már a jelöltek között. A jelöl-el˝oa´ll´ıtsának tehát három f˝o lépése van : mag azonos´ıtás (ha létezik egyáltalán), élillesztés és a részgráfok ellen˝orzése. Az els˝o lépést gyors´ıthatjuk, ha minden gyakori gráfnak egy listában tároljuk az (` − 1)-elem˝ u részgráfjainak kanonikus kódjait. Ekkor a közös mag meghatározása tulajdonképpen két lista metszetének meghatározását jelenti. t´ amogatotts´ ag meghat´ aroz´ asa A bemeneti gráfokat egyesével vizsgálva meg kell határozni, hogy melyek azok a jelöltek, amelyek izomorfak a bemeneti gráf valamely részgráfjában. A részgráf izomorfia eldöntése NP-teljes, de ezen feladat eldöntésére használt algoritmusok számát csökkenthej¨ uk, ha minden részgráfnak rendelkezés¨ unkre a´ll a TID-hamaza, azon bemeneti gráfok sorszámai, amelyek tartalmazzák a részgráfot. Egy jelölt vizsgálatánál csak azon bemeneti elemeket kell megvizsgálnunk (ha ezek száma nagyobb min supp-nál), amely sorszáma minden részgráf TIDhalmazában szerepel.

13.6.2. gSpan A gráfok a´brázolására a gSpan a DFS-k´ odokat, illetve az abból el˝oa´ll´ıtott kanonikus kódolást használja. A mélységi kód el˝oa´ll´ıtásához ki kell választanunk egy gyökér cs´ ucsot, majd ebb˝ol a cs´ ucsból indulva bejárni a gráfot, mintha egy gyökeres fát járnánk be mélységi bejárás szerint. A bejárás szerint minden cs´ ucshoz id˝oc´ımkét rendelhet¨ unk, amely megadja, hogy hanyadik lépés során látogattunk meg egy cs´ ucsot. Mivel a gráf tartalmazhat köröket is, ezért el˝ofordulhat,


274

hogy egy cs´ ucsot többször meglátogatunk. Ilyen esetben a cs´ ucs id˝oc´ımkéjét ne ´ırjuk fel¨ ul (és az id˝o számlálóját se növelj¨ uk). H´ıvjuk el˝ oreélnek azokat az éleket, amelyek még nem látogatt cs´ ucsba vezetnek, a többit élt pedig visszaélnek. A gráf bejárása során minden lépésnek egy elem felel meg a DFS-kódban, azaz a kód hossza megegyezik a gráf éleinek a számával. Minden elem egy o¨tös, amelynek els˝o két eleme az indulási és az érkezési cs´ ucsok id˝obélyegét adja, a harmadik és o¨tödik elem ezen cs´ ucsok c´ımkéit és a negyedik elem az él c´ımkéjét tárolja. Természetesen egy adott gráfnak több DFS-kódja is lehet attól f¨ ugg˝oen, hogy melyik cs´ ucsot választjuk gyökének és milyen sorrendben vessz¨ uk egy cs´ ucs gyermekeit. A 13.11 a´brán egy példagráfot, három k¨ ulönbözö mélységi bejárást és az azokhoz tartozó DFS-kódokat láthatjuk. A visszaéleket szagatott vonallal jelölt¨ uk.

X

F1

F2

X

Y

A Y B B X

A A D

Y B Z

B X

C

A

B Z

Z

él 0 1 2 3 4 5

F1 (0,1,X,a,Y) (1,2,Y,b,X) (2,0,X,a,X) (2,3,X,c,Z) (3,1,Z,b,Y) (1,4,Y,d,Z)

F2 (0,1,Y,a,X) (1,2,X,a,X) (2,0,X,b,Y) (2,3,X,c,Z) (3,0,Z,b,Y) (0,4,Y,d,Z)

D

A

BZ

X

B

X A

C

X

C

Z

X A

A D

F3

D

Y C

Z

Z

B Z

F3 (0,1,X,a,X) (1,2,X,a,Y) (2,0,Y,b,X) (2,3,Y,b,Z) (3,0,Z,c,X) (2,4,Y,d,Z)

13.11. a´bra. Példa : mélységi fák és mélységi kódok A c´ımkéken tudunk egy rendezést definiálni, ami alapján az o¨tösöket is rendezni tudjuk. Ezen rendezés szerint lexikografikusan rendezni tudjuk a kódokat is. Egy gráf kanonikus kódja legyen az a DFS-kódja, amely ezen rendezés szerint a legkisebb. Legyen α = ha0 , a1 , . . . , am i egy DFS-kód. Ekkor a β = ha0 , a1 , . . . , am , bi-t az α gyermekének h´ıvjuk, α-t pedig a β sz¨ ul¨ ojének. Ahhoz, hogy a β tényleg DFS-kód legyen a b c´ımkéj˝ u élnek az α a´ltal kódolt mélységi fa legjobboldali a´gán kell elhelyezkednie. Erre a DFS-kódnövelésre láthatunk példát a következ˝o a´brán. Könny˝ u belátni, hogy amennyiben az u ´ j él visszaél, akkor csak a legjobboldalibb cs´ ucsból indulhat. A sz¨ ul˝o-gyerek reláció megadásával definiálhatunk a DFS-kódfa fogalmát. A DFS-kódfa egy olyan fa, amelynek cs´ ucsaiban DFS-kódok u ¨ lnek és minden sz¨ ul˝o-gyerek cs´ ucs a´ltal reprezentált DFS-kódokra teljes¨ ul a fenti sz˝ ul˝o-gyerek kapcsolat és a fa redezett, azaz minden cs´ ucs gyermeke


275

13.12. a´bra. Példa : mélységi kód a DFS-kód szerint növev˝o sorrendbe van rendezve. Amennyiben egy kanonikus kódhoz hozzáveszek egy u ´ j élt u ´ gy, hogy ez DFS-kódot eredményezzek, az nem jelenti azt, hogy ez a kód kanonikus kód lesz. A DFS-kódfában minden kanonikus kód megtalálható, de emellett számos nem kanonikus kód is szerepel. A rendezés azonban garantálja, hogy ha pre-ordes bejárás szerint bejárnánk a fát, akkor tetsz˝olges gráf els˝o DFS-kódja egybe kanonikus kód is. A DFS-kódfát ezek szerint egyszer˝ us´ıthetj¨ uk, hogy kimetsz¨ uk azon részfákat, amelyek cs´ ucsai nem kanonikus kódokat tartalmaznak. A gSpan algoritmus tulajdonképpen ezt a gyakori gráfokat tároló egyszer˝ us´ıtett DFS-kódfát a´ll´ıtja el˝o. Mihelyt egy olyan DFS-kódot a´ll´ıt el˝o, amely nem minimális, a fát nem növeszti tovább ezen az a´gon. Könny˝ u belátni, hogy a G=(V, E) gráfnak nem kell |V |·|E|-nél többször törölni nem kanonikus DFS-kódját. A G gráfot csak (|E|−1)-elem˝ u részgráfjából származtathatjuk, amelyek száma legfeljebb |E|. A részgráf a´ltal nem tartalmazott élt, amennnyiben az el˝oreél |V |−1 féleképpen illeszthetj¨ uk a legjobboldalibb a´ghoz. Visszaél esetében pedig a legjobboldalibb cs´ ucshoz kell tenn¨ unk, ezen lehet˝oségek száma pedig |V |−2. Ez a korlát elég gyenge, hiszen csak annyit tett fel, hogy a legjobboldali u ´ ton található cs´ ucsok száma kisebb |V |-nél. Az esetek többségében ez az u ´ t az élszámnál jóval kisebb, ´ıgy a nemkanonikus kódok törlésének száma jóval kevesebb. ¨ FOLYT KOV.

14. fejezet Adatb´ any´ aszat a gyakorlatban Az eddigi fejezetekben matematikai modellekr˝ol, megoldandó feladatokról és algoritmusokról beszélt¨ unk. E fejezet nem lesz ennyire tudományos : az adatbányászat legtipikusabb felhasználási ter¨ uleteit fogjuk a´tnézni. Azt vizsgáljuk, hogy milyen jelleg˝ u o¨sszef¨ uggések után érdemes kutatni, és hogy ezen o¨sszef¨ uggések felder´ıtése milyen el˝onyökkel jár. Az adatbányászat napjaink egyik legnépszer˝ ubb ter¨ ulete. Nem meglep˝o, hogy napról napra u ´ j adatbányászati szoftver jelenik meg, hirdetve magáról azt, hogy a piac legjobb terméke. A fejezet második részében o¨sszefoglaljuk a jelenleg kapható adatbányászati szoftvereket, majd kitér¨ unk arra, hogy milyen szempontokat vegyen figyelembe egy cég a megfelel˝o szoftver kiválasztásánál.

14.1. Felhaszn´ al´ asi ter¨ uletek A sikeres alkalmazások hatására az adatbányászat egyre elfogadottabb tudományággá vált. Már szinte mindenhol fontos az adatok tárolása mellett azok feldolgozása és elemzése. A kinyert információ u ´ j tételek, törvényszer˝ uségek felfedezését seg´ıtheti el˝o, vagy éppen ford´ıtva : meglév˝o hipotéziseket cáfolhat meg. Ebben a részben 3 olyan ter¨ uletr˝ol szólunk, ahol az adatbányászat már mélyen gyökeret vert és az egyik legfontosabb eszközzé vált. Ezek a ter¨ uletek pedig : (1.) kereskedelem, (2.) pénz¨ ugy, (3.) biológia és orvostudomány. Az itt le´ırtakon t´ ul számos esettanulmányt sikeres alkalmazásról szóló h´ırt lehet találni például a magyar adatbányászok honlapján (http ://www.datamining.hu).

14.1.1. Az u ¨ gyf´ el ´ eletciklusa A kereskedelemben és a pénz¨ ugyben is a profitot az u ¨ gyfelek termelik. A következ˝o a´brán láthatjuk, hogy milyen változásokat képes hozni az adatbányászat az u ¨ gyfelek életciklusában. Az adatbányászat seg´ıtségével hatékonyabban fel tudjuk ismerni a potenciális u ¨ gyfelek körét. Így kevesebbet költ¨ unk azon u ¨ gyfelekre, amelyek nagy valósz´ın˝ uséggel nem lesznek u ¨ gyfeleink, azaz faragunk a költségeken. Meg tudjuk k¨ ulönböztetni a jó és a rossz u ¨ gyfeleket. A rossz u ¨ gyfelekt˝ol hamarabb megszabadulhatunk, és az ezáltal megtakar´ıtott o¨sszegeket a jó u ¨ gyfelekre ford´ıthatjuk, ami még gy¨ umölcsöz˝obb kapcsolatot eredményezhet. Azt is idejében észrevehetj¨ uk, ha egy jó u ¨ gyfel¨ unknek növekszik az elégedetlensége vel¨ unk szemben. 276

´ ´ 14. FEJEZET. ADATBANY ASZAT A GYAKORLATBAN profit jobb ügyfélkapcsolat

277 adatbányászat nélkül adatbányászattal

Hatékonyabb ügyfél−megnyerés A kapcsolat gyorsabb megszakítása rossz ügyféllel

Ügyfél elvesztésének gyors felismerése Idõ

14.1. a´bra. Az u ¨ gyfél életciklusa

14.1.2. Kereskedelem Többször hoztunk fel példát az adatbányászat kereskedelmi felhasználásáról. Magát az asszociációs szabályokat is egy kereskedelmi példán kereszt¨ ul vezett¨ uk be. Ez nem véletlen, hiszen a vásárlói kosarak elemzésének igénye keltette életre ezt a ter¨ uletet. A kereskedelemben ma már minden u ¨ zletben megtalálhatóak a m˝ uködést seg´ıt˝o számlázó, raktárkészlet-kezel˝o, programok. Ezek egyre o¨sszetettebbek, a puszta vásárlások felsorolásánál és visszakeresésénél jóval többet tudnak : ha rendelkezés¨ unkre a´ll valamilyen vev˝oazonos´ıtó, akkor a vev˝ok teljes vásárlói történetét megkaphatjuk, de ezenfel¨ ul hitelekr˝ol, beszerzésekr˝ol, száll´ıtásokról is rögz´ıthet¨ unk adatokat. A nagy multik ma már tudják, hogy a törzsvásárlói kártyák növelik a vev˝o h˝ uségkedvét. Ezek a kártyák u ´ jabb adatokat ´ıgy u ´ jabb hasznos elemzéseket tesznek lehet˝ové. A szerv´ızekb˝ol érkez˝o visszacsatolásoknak is fontos szerepe lehet egy termék sikerénél. Az on-line a´ruházak elterjedésével a vev˝okr˝ol begy˝ ujtött adatok min˝osége tovább javul. Az elektronikus kereskedelemr˝ol k¨ ulön részben szólunk b˝ovebben. Az adatbányászatnak a kereskedelem ter¨ uletén a következ˝o céljai lehetnek. – Vásárlói szokások elemzése az asszociációs szabályok, illetve az epizódok kinyeréséhez vezetnek. A szabályokat felhasználhatjuk eladást o¨sztönz˝o akciók szervezésénél, a´ruházak térképének kialak´ıtásánál, prospektusok tervezésénél, eladáshelyi reklámeszközök kialak´ıtásánál, termékfejlesztésnél, . . . . – Klaszterezés és osztályozás seg´ıtségével vásárlói csoportokat hozhatunk létre. A célcsoportok pontosabb behatárolásával irány´ıthatóbb, emberközelibb, interakt´ıv, egyedi és hatékonyabb reklám- és marketingstratégiát kész´ıthet¨ unk. – A személyre szabott u ¨ gyfélszolgálat nagyban fokozza a vásárlók elégedettségét.

´ ´ 14. FEJEZET. ADATBANY ASZAT A GYAKORLATBAN

278

– A vásárlói szokások jobb megismerésével pontosabban tudjuk megjósolni az egyes termékek értékes´ıtési adatait. Ha egy u ¨ zletnek pontos képe van a raktárkészletr˝ol, a fogyás u ¨ temér˝ol és az igényekr˝ol, akkor hatékonyabban tudja megszervezni a beszerzéseket, a disztrib´ uciós csatornák t´ıpusát, nagyságát, a raktározás módját (pl. : just-in time). A hatékonyság növelésével csökkenteni tudjuk a költséget és jobban elosztani az er˝oforrásokat. – Az u ´ j vev˝ok toborzása mellett a régiek megtartása egyre fontosabb (CRM - Customer Relation Management). A vev˝ok vásárlói sorozatainak elemzésével képet kaphatunk arról, hogy kinek csökkent a vásárlói kedve, ´ıgy még azel˝ott tehet¨ unk ellene valamit (pl. h˝ uségakció), hogy végképp elpártolna t˝ol¨ unk.

14.1.3. P´ enz¨ ugy A bankok szolgáltatásai köz¨ ul kiemelten fontosak a számlák, lekötött betétek vezetése, a hitelek ny´ ujtása és egyéb pénz¨ ugyi tranzakciók lebonyol´ıtása. Ezeken a ter¨ uleteken mára elismertté vált az adatbányászat szerepe. – A bankok eredetileg azért jöttek létre, hogy mások értékeit meg˝orizzék. Az u ¨ gyfelek ´ıgy biztonságban tudták a pénz¨ uket, ami a kamatok miatt gyarapodott is, a bankok pedig nagy t˝okékhez jutottak, amit be tudtak fektetni. Mára a bankok az u ¨ gyfeleket eltér˝oen kezelik (lakossági, vállalati u ¨ gyfelek, számlaforgalomtól f¨ ugg˝oen a´tlagos, fontos, kiemelt u ¨ gyfelek . . . ). Az u ¨ gyfelek és a tranzakciók nagy száma miatt az u ¨ gyfélcsoportok manuális kialak´ıtása lehetelen feladat. A klaszterezés és az osztályozás ezért ezen a ter¨ uleten kiemelten fontos eszköz. – Hitelek ny´ ujtása a kamatok és a rendszeres jövedelemforrás miatt jó befektetés a banknak. A kérelmez˝o kör¨ ulményeinek megvizsgálása nélk¨ ul osztogatni a hiteleket azonban kockázatos, mert lehet, hogy az u ¨ gyfél nem tudja visszafizetni. Ha az u ¨ gyfelekr˝ol sok adat a´ll rendelkezésre (nettó jövedelem, beosztás, családi a´llapot, korábbi banki tranzakciói . . . ), akkor az osztályozást felhasználva olyan döntési fákat lehet létrehozni, amelyek nagy bizonyossággal megállap´ıtják adott u ¨ gyfélr˝ol, hogy megb´ızható hitel szempontjából vagy nem. Ezt a módszert els˝osorban olyan országokban alkalmazzák, ahol a hitel oda´ıtélését nem kötik nagyon szigor´ u feltételekhez. Amerikában például elterjedt szokás, hogy Karácsony el˝ott a bankok el˝ozetes megrendelés nélk¨ ul hitelkártyákat k¨ uldenek szét, amit a c´ımzett nem köteles használni, de ha fizet vele, akkor a hitelt néhány hónapon bel¨ ul vissza kell fizetnie. Nyilvánvalóan a megnövekedett vásárlói kedv ily módon való o¨sztönzése kiemelt jelent˝oség˝ u lehet egy bank számára partnerkörének kib˝ov´ıtésénél, megtartásánál és természetesen a plusz generált pénzforgalom figyelembe vételénél, de ezen marketingakció kockázata igen magas, ha a hitelkártyát használó a kés˝obbiekben nem fizeti vissza a bank pénzét. – A bank/hitelkártyával történ˝o fizetés és készpénzfelvétel a civilizáció nélk¨ ulözhetetlen eleme. A rengeteg biztonsági intézkedés ellenére a kártyás csalások még mindig sok kárt okoznak. Mivel a tranzakciók száma o´riási, ezért manuális eszközökkel ebben az esetben is lehetetlen feladat kisz˝ urni a szokatlan viselkedést, ami a csalókra, kártyatolvajokra jellemz˝o. Az eltéréselemzés az adatbányászat azon ter¨ ulete, ahol a szokásostól eltér˝o viselkedés, mintázat felfedezése a cél.


279

14.1.4. Biol´ ogia ´ es Orvostudom´ any A biológiában és az orvostudományban az adatok elemzéséb˝ol kapott törvényszer˝ uségek értéke felbecs¨ ulhetetlen. Adatbányászat seg´ıtségével fejlesztenek u ´ j gyógyszereket, seg´ıt a rák elleni terápia hatékonyabb kialak´ıtásában, k¨ ulönböz˝o betegségek t¨ uneteinek meghatározásában. . . . Ebben a részben két fontos alkalmazásról szólunk : a DNS láncok elemzésér˝ol és a cukorbetegség kezelésének seg´ıtségér˝ol. DNS l´ ancok elemz´ ese Az orvostudomány talán legnagyobb megoldatlan feladata a DNS láncok teljes megfejtése. Tudjuk, hogy minden él˝olényt egyértelm˝ uen azonos´ıt a DNS lánca, mintha egy genetikai kódot kaptunk volna a természett˝ol ! A DNS láncok a felel˝osek többek között a betegségekért, bizonyos ´ emberi tulajdonságokért, hajlamokért, allergiákért. . . . Eppen ezért a kiemelt szerepért a DNS láncok fontosságát aligha lehet t´ ulbecs¨ ulni. Minden DNS lánc 4 ép´ıt˝ok˝ob˝ol ép¨ ul fel, ezek a nucleotidok : adenin, cytosin, guanin és thymin. Ez a négy nucleotid alkot egy hossz´ u láncot, ami leginkább egy spirál alak´ u létrára emlékeztet. Egy ember kb. 100 ezer génnel rendelkezik, egy gén pedig a´ltalában többszáz nucleotidból ép¨ ul fel, ahol a nucleoidok sorrendjének fontos szerepe van. A DNS láncok elemzése nem pusztán epizódkutatásról szól. A tudás kinyeréséhez o¨tvözni kell a k¨ ulönböz˝o adatbányászati technikákat ! – DNS láncokat gyakran kell o¨sszehasonl´ıtani, ezért sorozatok hasonlóságának elemzése fontos módszer. Beteg és egészséges szövetekb˝ol vett minták o¨sszevetéséb˝ol megállap´ıthatjuk a kritikus eltéréseket. El˝oször a két mintát k¨ ulön vizsgálják és nyerik ki a gyakran el˝oforduló mintázatokat. Kés˝obb már csak ezeket a mintázatokat vetik o¨ssze. A beteg szövetben jóval gyakrabban el˝oforduló mintázatok lehetnek a betegség genetikai tényez˝oi. Vagy ford´ıtva, az egészséges szövetben gyakrabban el˝oforduló mintázatok adhatnak alapot a gyógyszer elkész´ıtéséhez. – A betegségekért a´ltalában nem csak egy gén felel˝os, hanem a gének egy kombinációja. Az asszociációs szabálykeresésnél megismert módszerekkel lehet feltárni a gyakran egy¨ utt el˝oforduló esetleg felel˝os géneket beteg egyedek egy adott csoportjában. – A gének és betegségek világát tovább bonyol´ıtja, hogy a betegség k¨ ulönböz˝o fázisaiban esetleg más-más gének akt´ıvak. Ha egy adott betegségnél siker¨ ulne ezt feltérképezni, akkor a k¨ ulönböz˝o fázisokhoz elkész´ıtett gyógyszerek kifejlesztésével növelni lehetne a kezelés hatékonyságát. Cukorbetegs´ eg A cukorbetegség egy elterjedt és nem megfelel˝o kezelés esetén halált okozó betegség. Kezelésére a betegnek inzulint kell a szervezetébe juttatnia. Amennyiben a beteg t´ ul sok inzulint kap, akkor szervezete tovább csökkenti a cukor termelését, és betegség tovább s´ ulyosbodik. Ha viszont a beteg kevés inzulint kap, akkor szervezetében cukorhiány mutatkozik, aminek hatásaként széd¨ ulés, a´julás, s˝ot akár bénulás is el˝oa´llhat. Az inzulin megfelel˝o adagolása ezért kiemelten fontos a cukorbetegség kezelésében. A tudomány jelenlegi a´llása szerint nincs pontos képlet arra nézve, hogy egy adott paraméterekkel


280

rendelkez˝o beteg mekkora adagot kapjon. Habár egyre több eszköz jön létre a minél gyorsabb visszajelzésre, az adagok meghatározása még mindig o¨sztönszer˝ uen, az orvos le nem ´ırt, konkrétan meg nem fogalmazott tapasztalatai alapján történik. Az inzulin megfelel˝o adagjának kiválasztása rengeteg paramétert˝ol f¨ ugg (tests´ uly, kor, nem, betegségre jellemz˝o adatok stb.). A k¨ ulönböz˝o mér˝o- és figyel˝oeszközök piacra ker¨ ulésével egyre több adat gy˝ ulik o¨ssze, ´ıgy lehet˝ové válik ezek elemzése. Az osztályozás, korrelációanal´ızis, asszociációkutatás mind fontos eszközök a cukorbetegség kutatásában.

14.2. Az adatb´ any´ aszat b¨ olcs˝ oje : az elektronikus kereskedelem (e-commerce) A bevezet˝oben szó volt arról, milyen feltételei vannak a sikeres adatbányászatnak (lásd 21.oldal). Idézz¨ uk fel ezeket a feltételeket, és nézz¨ uk meg, hogyan teljes¨ ulnek az elektronikus kereskedelemben. sok adat : Közismert weboldalnak nagy a látogatottsága. sok attrib´ utum : Az on-line a´ruházaknál lehet˝oség van a vásárló fontosabb adatainak tárolására, de ezenfel¨ ul több más információt is megtudhatunk róla, pl. hogy mi iránt érdekl˝odik gyakran a látogató, milyen reklámokat néz meg, . . . tiszta adat : Az adatok az emberi rögz´ıtés hibájától mentesek. A weboldal kész´ıt˝oje határozhatja meg, milyen t´ıpus´ u adatok legyenek tárolva, illetve, mely mez˝oket kell kötelez˝oen kitölteni. akci´ ok´ epess´ eg : A kinyert tudás birtokában megváltoztathatjuk a weboldalt (akár a teljes designt, akár csak a linkeket), személyre szabott oldalakat kész´ıthet¨ unk, e-maileket k¨ uldhet¨ unk ki, . . . befektet´ es megt´ er¨ ul´ ese : Mivel minden elektronikusan zajlik a bevételnövekedés kiszám´ıtása alapfeladat. S˝ot még a célzott marketing hatékonyságát is könnyedén megállap´ıthatjuk, hiszen rögz´ıteni tudjuk, ha valaki egy e-mailen kereszt¨ ul jutott az oldalunkra. A fentiek ellenére az adatbányászat alkalmazása az elektronikus kereskedelemben korántsem akadálytalan [98]. A problémák forrása az, hogy az adatokat a webszerverek mentik el. A webszerver adatainak bányászata kézenfekv˝onek t˝ unik, hiszen a webszerverek szinte mindent rögz´ıtenek. A naplófájlokat azonban eredetileg a webszerverek debuggolására találták ki, nem pedig az adatbányászat támogatására. A legf˝obb problémák az alábbiak : – Nem lehet egyértelm˝ uen azonos´ıtani a felhasználót. Szemben az adatbányászattal, a webszerverek számára ez ugyanis nem fontos információ. Próbálkoznak a felhasználók cookie, IP, vagy böngész˝o szerinti azonos´ıtásával [38], de ezek köz¨ ul egy sem ny´ ujtja a tökéletes megoldást [17]. – A webszerverek nem tárolnak minden fontos adatot. A naplófájlokban nincs nyoma például a berakom a kosárba”, mennyiség megváltoztatása”, termék törlése” ” ” ” m˝ uveleteknek.


281

– A form-ok adatai nincsenek tárolva. Pedig gondoljuk meg, hogy például a keresési form-ok éppen a vásárlások érdekl˝odését t¨ ukrözik. – A naplófájlokban URL-ek szerepelnek, nem pedig az oldal tartalma. Nem mindig könny˝ u meghatározni, hogy adott termék melyik oldalhoz tartozik. A helyzetet tovább bonyol´ıtja, hogy gyakran ugyanaz az információ több nyelven is elérhet˝o. – A dinamikus oldalak tartalmát sem lehet egyértelm˝ uen meghatározni. Melyik termék érdekelte a látogatót, ha az o¨sszes terméket a termek.jsp oldal mutatja ? Vagy csak egy reklám volt a felbukkanó ablak ? Esetleg egy Nincs raktáron !” u ¨ zenet ? Sikeres volt a ” keresés vagy nem hozott eredményt ? Ezek a kérdések legtöbbször dinamikus oldalakhoz köt˝odnek és megválaszolásuk a naplófájlok alapján lehetetlen feladat. – Az igazán nagy oldalaknak több webszerver¨ uk van, amelyek k¨ ulönböz˝o helyeken helyezkednek el. Ezek mind saját naplófájllal dolgoznak, egyes´ıtés¨ uket nehez´ıti, hogy k¨ ulönböz˝o id˝ozónákban lehetnek. A fenti problémákra megoldás ny´ ujt, ha a vásárlásokkal kapcsolatos információk tárolását a vásárlásokat kiszolgáló program végzi, azaz az adatok tárolását az alkalmazási rétegre b´ızzuk. A valóságot t¨ ukröz˝o adatok el˝oa´ll´ıtásának nagy ellenségei az Internetes robotok. Ezek olyan lekérdezéseket, oldalletöltéseket generálnak, amelyek nem t¨ ukröznek valóságos emberi érdekl˝odést. Intenz´ıv kutatás tárgyát képezi a robotok a´ltal generált hamis adatok kisz˝ urése.

14.3. Adatb´ any´ asz szoftverek A továbbiakban egy rövid o¨sszefoglalót adunk a ma kapható legfontosabb adatbányász szoftverekr˝ol. A lista korántsem teljes. Ennek oka egyrészr˝ol a terjedelmi korlát, másrászr˝ol a nap mint nap változó piac. weka (http ://www.cs.waikato.ac.nz/ ml/weka/) Az u ´ j-zélandi Waikato Egyetem fejleszti a szabad forráskód´ u a WEKA nev˝ u adatbányászati programcsomagot. Szimbólikus elnevezése az ország nemzeti madaráról, a kivir˝ol származik : az adatbányász ”rejtett tudást” keres, a kivimadár (weka) pedig fejét v´ızbe dugva kutat a ”rejtett” táplálék után. A k¨ ulönböz˝o adatbányászati algoritmusok igen széles körét találjuk meg a szoftvercsomagban. Az implementált eljárások száma nemcsak abszol´ utétékben, hanem az igen drága kereskedelmi termékhez viszony´ıtva is magas. A WEKA-t JAVA nyelven fejlesztik, az egyes osztályok forráskódja mellett azok dokumentációi is hozzáférhet˝ok az interneten, mely remek lehet˝oséget k´ınál a kutatónak, diákoknak, adatbányászat iránt érdekl˝od˝oknek. A WEKA felhasználóbarát, logikus, jól a´ttekinthet˝o grafikus fel¨ ulete vezeti végig a felhasználót az adatbányászat lépésein. Oktatási és demonstrációs célra is k´ıváló. A WEKA adatforrások széles körét támogatja. Az elemzend˝o adatok származhatnak például JDBCn kereszt¨ ul elérhet˝o adatbázisoktól vagy fájlokból. El˝onyös tulajdonságainak köszönhet˝oen világszerte ismert és elismert szoftver.


282

Enterprise Miner (http ://www.sas.com/products/miner/index.html) A SAS Institute,Inc. fejlesztette ezt a programcsomagot. A cég komoly m´ ultra tekint vissza statisztikai elemzések terén. Az Enterprise Miner is számos statisztikai eszközt k´ınál fel, de már megtalálható az o¨sszes többi adatbányászati feladatra megoldás, csak u ´ gy mint döntési fák, neurális hálózatok, regresszió, klaszterezés, sorozat-elemzés, asszociációbányászat. Clementine (http ://www.spss.com/spssbi/clementine) A Clementine az SPSS Inc. terméke. Integrált adatbányászati környezetet biztos´ıt végfelhasználók és fejleszt˝ok részére. Adatbányászati eszközök köz¨ ul megtalálható a neurális hálózatok, osztályozás, sorozat-elemzés stb. A Clemetine szoftverében egyedi az az objektum-orientált interfész, amin kereszt¨ ul a felhasználó saját algoritmusokat és funkciókat adhat meg. Intelligent Miner (http ://www-3.ibm.com/software/data/iminer/fordata) Az IBM terméke talán a legismertebb és a legelterjedtebb adatbányászati eszköz. Emellett fontos érv szól mellette : az IBM kutatóintézetében sz¨ uletett jónéhány neves publikáció, tehát e szoftver mögött a´ll a legfelkész¨ ultebb kutatógárda. A programmal lehet bányászni asszociációkra, epizódokra, alkalmas osztályozási, klaszterezési feladatok ellátására, de ezenk´ıv¨ ul lehet regressziót számolni és eltérést keresni. A fejlett adatmegjelen´ıtés mellett képes statisztikai elemzésre és neurális hálózatokon alapuló algoritmusok futtatására. Az Intelligent Miner használatához IBM DB2 relációs adatbáziskezel˝o rendszernek is futnia kell. DBMiner (http ://www.dbminer.com) A DBMinert a Simon Fraser University a´ltal elkész´ıtett programból fejlesztette tovább a DBMiner Technology Inc.. Adatbányászati funkciók köz¨ ul megtalálhatók a asszociációbányászat, karakterizáció, osztályozás, klaszterezés és jóslás. Ennek a programnak legszorosabb, legintegráltabb a kapcsolata az OLAPpal. A szoros kapcsolat miatt itt már OLAM-ról (On-Line Analitical Mining) beszél¨ unk. A program egy interakt´ıv környezetet k´ınál a felhasználónak, aki dinamikusan váltogathat OLAP operációk és adatbányászati funkciók között. MineSet A MineSet legnagyobb er˝ossége a fejlett vizualizácós képessége. Ez nem meglep˝o, hiszen a szoftvert a Silicon Graphics fejlesztette, amely cég mindig is a legjobbak közé tartozott a grafikában. A MineSetben megtalálható szinte az o¨sszes ismert adatbányászati funkció. További el˝ony, hogy a MineSet egyben fejleszt˝oi környezetet biztos´ıt u ´ j algoritmusok implementálásához, ´ıgy ha valamely feladatra nincs kész megoldás, akkor meg´ırhatjuk magunk, majd az eredmény megtekintéséhez használhatjuk a MineSet vizualizációs eszközeit. A fenti o¨t o´riásszoftver mellett felsorolás szinten szólnunk kell még az alábbi programokról : 4Thought, Alice, Darwin, Datascope, Scenario, Data Surveyor & Expert Surveyor.

14.3.1. Adatb´ any´ aszati rendszerek tulajdons´ agai Az el˝oz˝oekben felsoroltunk néhány adatbányászati szoftvert. A felsoroltakon k´ıv¨ ul léteznek még további szoftverek, amelyek bizonyos tekintetben akár jobbak is lehetnek a fentieknél. Ekkora választékban hogyan tudjuk megtalálni a nek¨ unk megfelel˝o szoftvert, mik azok a tulajdonságok, amit mindeképpen meg kell vizsgálunk egy ilyen beruházás el˝ott.


283

Adatb´ any´ aszati funkci´ ok. Egy cég azért vásárol adatbányászati szorftvert, mert o¨sszef¨ uggést akar kinyerni az adataiból. Már a szoftvervásárlás el˝ott hasznos, ha pontos elképzelése van arról, hogy milyen t´ıpus´ u o¨sszef¨ uggéseket fognak keresni (asszociációs szabályok, epizódok, klaszterek stb.). A legfontosabb, hogy a szoftver funkciói között megtalálhatók legyenek az ilyen t´ıpus´ u o¨sszef¨ uggések kinyerésének lehet˝osége. Nem biztos, hogy a nek¨ unk megfelel˝o szoftver lesz a legtöbb adatbányászati feladat megoldását támogató. Egyre több szoftver jelenik meg, amely egy adott feladatra szakosodik (pl. : weblog elemz˝o szoftver), ugyanakkor az a´tfogó képeséggel rendelkez˝ok mellett szól, hogy a jöv˝ore is célszer˝ u gondolni : milyen t´ıpus´ u o¨sszef¨ uggéseket keres¨ unk esetleg kés˝obb. Adatt´ıpus. A legtöbb szoftver a relációs adatbázisokban található adatokat tudja feldolgozni, de ezenk´ıv¨ ul a sima szövegfáljt, munklapokat, ismertebb formátum´ u fájlokat is kezelik. Fontos tehát ellen˝orizni, hogy pontosan milyen formátum´ u adatokon dolgozik. Ma már léteznek szoftverek, amelyek speciális adatformátumokat is kezelni tudnak, mint például földrajzi, multimédiás, web logok, DNS adatbázisok. Adatforr´ as. Vannak adatbányász szoftverek, amelyeket fel kell tölteni az adatokkal miel˝ott dolgozni lehet vel¨ uk. Hasznosabb azonban, ha a szoftver a más adatbázisokban található adatokat is kezelni tudja. Fontos, hogy a rendszer támogassa az ODBC kapcsolatot vagy az OLE DB for ODBC-t. Ez lehet˝ové teszi a hozzásférést sok más relációs adatbázishoz (DB2, Informix, Microsoft SQL Server, Microsoft Access, Excel, Oracle stb.). Adatm´ eret, sk´ al´ azhat´ os´ ag. Tudnunk kell, hogy a szoftver mekkora adattal képes megb´ırkozni továbbá, hogy az adatbázis növelésével hogyan romlik a futási id˝o. Sklálázhatóság szempontjábó megk¨ ulönböztet¨ unk sor szerint sk´ al´ azhat´ o és oszlop szerint sk´ al´ azhat´ o szoftvereket. Az els˝o azt jeleti, hogy ha megduplázom a sorok számát, akkor nem n˝o duplájára a futási id˝o/memória igény. Az oszlop szerint skálázhatóság szerint a futási id˝o/memória igény az oszlopok számával lineárisnál nem rosszabb. Ez utóbbi feltétel teljes¨ uléséhez kifinomultabb algoritmusokra van sz¨ ukség. Megjelen´ıt´ esi eszk¨ oz¨ ok. A vizualizáció egy k¨ ulön szakma. Az adatbányászati algoritmusok eredményeinek a´ttekinthet˝o, szemléletes megjelen´ıtése sokat seg´ıt az értelmezésben. A 3D a´brák, grafikonok, táblázatok nagyon hasznosak és sokat seg´ıtenek az adatbányászat használhatóságában és az eredmények interpretálhatóságában. Az adatbányászat nagyon fiatal tudományág, ´ıgy a szoftverek sem tekinthetnek vissza nagy m´ ultra. A szoftverek szinte minden tekintetben k¨ ulönböznek egymástól. A megjelen´ıtéssel, adatbányászati funkciókkal, terminológiával kapcsolatos egységes koncepció kialakulásáig még várnunk kell.

14.3.2. Esettanulm´ anyok r¨ oviden A következ˝okben vázolunk néhány sikeres adatbányászati projektet [122] 1 . 1

Egyes részeket a BME di´ akjai ford´ıtott´ ak.


284

Szlov´ en m´ ediaszok´ asok felt´ ar´ asa Ma a médiumok kezében o´riási hatalom van mind politikai, mind u ¨ zleti értelemben. Az egyes u ´ jságok, tv m˝ usorok fogyasztóinak” megismerésével közvetlen¨ ul elérhetik az egyes cégek ” a célközönségeiket. A szlovén Mediana mintegy 8000 (20 oldalas !) kérd˝o´ıv adatait elemeztette adatbányászati módszerekkel. Az adatok kit˝ un˝o min˝oség˝ uek voltak és rengeteg attrib´ utumot tartalmaztak többek között az egyes személyek k¨ ulönböz˝o médiumokhoz f˝ uz˝od˝o viszonyát, a személyek érdekl˝odési körét, életst´ılusát, anyagi helyzetét, demográfia adatait (lakásának, munkahelyének fekvése). Az elemzések során a következ˝o kérdésekre keresték a választ : – mely más u ´ jságot/magazint olvasnak még sz´ıvesen bizonyos nyomtatott médiumok olvasói, – mi jellemz˝o az olvasóira/hallgatóira/néz˝oire az egyes médiumoknak, – milyen tulajdonságok k¨ ulönböztetik meg a k¨ ulönböz˝o u ´ jságok olvasóit, – az u ¨ gyfeleiket tekintve mely médiumok hasonlóak ? A kérdések megválaszolásához számos adatbányászati módszert használtak fel, csak u ´ gy mint korreláció-elemzés, klaszterezés, döntési fák, asszociáció szabályok, Kohonen hálók. Például döntési fák seg´ıtségével próbálták megtudni, hogy jellemz˝oen kik olvassák a ’Delo’ és a ’Slovenske Novice’ u ´ jságokat. A kinyert szabályokból két példa : A Delo tipikus olvasója ” egy héten több alkalommal olvas u ´ jságot, az a´tlagnál magasabb az iskolai végzettsége, ismeri a k¨ ulönböz˝o magazinokat, autó és sörmárkákat, szeret tv-zni, stb.” ezzel szemben a Slo” venske Novice olvasói szertenek kávézókban és bárokban id˝ozni, kevésbé tájékozottak márkák ismeretében, mint a Delo olvasói, és a´ltalában olvassák még a Slovneski Delnicar, Jana, stb. magazinokat is.” Klaszterezéssel profilcsoportokat hoztak létre. Kohonen háló seg´ıtségével megállap´ıtották a csoportok számát, majd a k-közép algoritmussal létrehoztak négy klasztert. A kapott klaszterek sajátosságait ezután döntési fák seg´ıtségével próbálták felder´ıteni. Az egyes csoportokat a jellemz˝ok meghatározása után a elhivatott fiatalok”, inakt´ıv id˝osek”, ambiciózus embe” ” ” rek” és akt´ıv id˝osek” jelz˝okkel illették. Például az inakt´ıv id˝osek”csoportját jellemzi, hogy ” ” nem szeretik a kih´ıvásokat, nem érdekli o˝ket a szórakoztatóipar, tudomány és technika, a f˝o o¨römforrásuk a család és nem szeretik a változásokat. Az Egyes¨ ult Kir´ alys´ ag baleseteinek elemz´ ese A baleseteket le´ıró adatbázisokból kinyert hasznos információk életeket menthetnek meg. Az okozatok, kapcsolatok feltárása olyan köz´ uti vagy közlekedési szabályokat érint˝o módos´ıtásokhoz vezethet, amelyek seg´ıtségével megel˝ozhet˝ok a balesetek anélk¨ ul, hogy az agyonszabályozások következtében megnehez´ıtenék az autósok életét. Az Egyes¨ ult Királyság adatbázisának elemzése egy nagyon sikeres adatbányászati projekt volt. Az adatbázis az 1979-1999-ig terjed˝o intervallum adatait, mintegy o¨tmillió rekordot tárolt. Minden rekordhoz tárolták a baleset kör¨ ulményeit, az autó, ill. a vezet˝o továbbá az esetleges sér¨ ulések adatait.


285

Az elemzéshez vizualizációs eszközöket, számos klasszikus statisztikai (pl. regresszió) és adatbányász módszert alkalmaztak. A balesetek kör¨ ulményei szöveggel voltak megadva, ezért ezek feldolgozásában kiemelt szerepet kaptak a szövegbányász módszerek. Egy érdekes és u ´ jszer˝ u megoldás volt a földrajzi helyek klaszterezése, melynek során a hasonló baleseti dinamikával rendelkez˝o helyek ker¨ ultek egy csoportba. K¨ ulönböz˝o id˝ofelbontásokhoz (évi/heti/napi balesetszám alakulás) k¨ ulönböz˝o klaszterezést kész´ıtettek. ´ Eszrevették például, hogy az olyan esetek amelyek a havi szinten emelked˝o baleseti számmal rendelkeznek és a balesetek száma nyáron éri el a maximumot megegyeznek a közkedvelt turisztikai helyekkel. Ezeken a helyeken tehát csak a f˝oszezonban sz¨ ukséges emelni a biztonsági szintet. További fontos csoportot jellemzett az a görbe, amely napközben és hétvégén alacsony szinten volt, de a munkaid˝o utáni id˝oszakban megugrott. Ez a görbe az ipari”ter¨ uletekre volt ” jellemz˝o. Vegy¨ uk észre, hogy a közlekedési balesetekre nagyon jellemz˝o a lokalitás vagy más szavakkal az ideiglenes gyakoriság. Ez azt jelenti, hogy o¨sszességében kevés baleset történik, viszont a kevés baleset nagy része ugyanabban az id˝oben (például hóesésben, vagy munkaid˝o után) esik meg. Ezeket az eseteket na´ıv módon, gyakori mintákat kinyer˝o algoritmusokkal nem lehetne felder´ıteni, hiszen az o¨sszes baleset száma csekély. A balesetek s´ ulyosságának megállap´ıtására feláll´ıtott döntési fa is számos értékes o¨sszef¨ uggéssel szolgált. Megmutatta például, hogy az 20 o´ra után történt motorkerékpárossal történt balesetekben a s´ ulyos sér¨ ulések aránya jóval magasabb, mint a´ltalában. Portug´ al Statisztikai Hivatal weblapj´ anak elemz´ ese Az internet rohamos fejl˝odésével egyre b˝ov¨ ul az elérhet˝o információ mennyisége, ´ıgy folyamatosan nagyobb szerephez jut a megfelel˝o adatok keresése és kiválasztása. Ezen szempontok figyelembe vételével fejlesztett weblapok nagyban megkönny´ıtik a felhasználók dolgát, ezért döntött a Portugál Statisztikai Hivatal is az oldalát látogatók szokásainak elemzése mellett. Három f˝o célt jelöltek meg : ajánlattev˝o rendszer fejlesztése, felhasználói profilok kialak´ıtása, weblap vizualizáció. A log fájlban tárolt adatok (3GB) jelent˝os sz˝ urésen estek a´t, mivel csak regisztrált felhasználók azonos´ıthatóak egyértelm˝ uen, a további információk megtéveszt˝oek lehetnek. Az ajánlattev˝o rendszer fejlesztése során a rendelkezésre a´lló adatokból ¡felhasználó,oldal¿ párokat hoztak létre, és ezekb˝ol vezettek le asszociációs szabályokat, aminek seg´ıtségével minden oldalhoz meghatározták a legjobban hasonl´ıtó N oldalt. A honlap architekt´ uráját tekintve három réteg˝ u volt : téma, altéma, fejezet. Ezekre k¨ ulön modelleket hoztak létre, és k¨ ulön tesztelték o˝ket. A teszt során egy felhasználó a´ltal látogatott oldalak köz¨ ul egyet kivéve vizsgálták, hogy a rendszer milyen arányban ajánlja a hiányzó oldalt. Az eredmények bizony´ıtották az ajánlattev˝o rendszer használhatóságát, k¨ ulönösen kis N -ekre értek el jelent˝os javulást az adatbányászati módszereket nem alkalmazó rendszerekhez képest (N =1 recall/recall.default=3). A felhasználói profilok kialak´ıtásának alapötlete, hogy hasonló érdekl˝odési kör˝ u felhasználók nagyjából hasonló oldalakat látogatnak. Ha minden felhasználóhoz hozzárendel¨ unk egy URLvektort, ami az a´ltala felkeresett oldalak c´ımét tartalmazza, akkor ezek klaszterezésével felhasználói csoportok alak´ıthatók ki. K-means algoritmus seg´ıtségével 10 csoportot k¨ ulön´ıtettek el, amelyket a rájuk legjobban jellemz˝o oldalakkal ´ırták le. Ezekkel az eredményekkel u ´ j oldalról közel´ıthet˝o meg az ajánlattev˝o rendszer, ugyanis két oldal ”jobban” hasonl´ıt, ha azonos csoportba tartozó felhasználók látogatják o˝ket, a módszer neve collaborative-filtering.


286

A honlap szerkezetének vizualizációjához magukat az oldalakat kellett csoportos´ıtani, tartalom alapján klaszterezni. Kétféle megoldás kész¨ ult : egy gráf alap´ u, és egy hierarchikus. Gráf megjelen´ıtés esetén a csomópontok jelölik a klasztereket, kulcsszavakkal jellemezve, m´ıg a kapcsolatokra ker¨ ulnek az adott csoportok hasonlóság értékei. Ezeket a központi vektorok cosinustávolságával számolták ki. A hierarchikus klaszterezés csoportokat képez a létrejött 20 klaszterb˝ol. A módszer során változó méret˝ u klaszterek jönnek létre (k¨ ulönböz˝o szám´ u oldalt tartalmaznak), ezeket téglalapokkal jelölik, a hasonlóságot pedig távolságuk adja, ami hasonló módon számolható, mint az el˝oz˝o esetben. D¨ ont´ est´ amogat´ o rendszerek alkalmaz´ asai A következ˝o 5 döntéstámogató rendszer Szlovéniában ker¨ ult alkalmazásra, mindegyik másmás jellemvonásokkal rendelkezik. Lakástámogató program : A feladat bankok megb´ızása a´llamilag támogatott hitelek ny´ ujtására. A konstrukció rendk´ıv¨ ul kedvez˝o a bankok számára, minél több szerz˝odésre szeretnének jogot szerezni. A projekt nagy anyagi kereteit figyelembe véve mindenképp egy a´tlátható modell sz¨ ukséges, a döntést követ˝o támadási fel¨ uletek csökkentésére. A nehézséget a mindössze egy hónapos határid˝o jelentette. A modell létrehozása során meghatározták a bankoktól bekérend˝o adatokat (hard data, magyarázó attrib´ utumok), majd ezeket csoportos´ıtva u ´ j, diszkrét tulajdonságokat hoztak létre (magyarázandó attrib´ utumok). A diszkrét értékeket meghatározó f¨ uggvény el˝oa´ll´ıtása szakért˝ok bevonásával történt. Ezek alapján már hozzárendelhet˝o minden bankhoz egy prioritás, amit a bank méretével s´ ulyozva alakulnak ki a kiosztott szerz˝odésszámok. Lakásfel´ uj´ıtási program : Lakótelepek renoválására ´ırtak ki pályázatot, melyek elb´ırálásához kértek döntéstámogatási rendszerek ny´ ujtotta seg´ıtséget. A bekért adatokból a következ˝o aggregált tulajdonságokat hozták létre : az ép¨ ulet a´llapota, a jelentkez˝o adatai, a jelentkez˝o státusza. Utóbbi esetén k¨ ulön kezelték a tulajdonos a´ltal lakott ép¨ uleteket és bérbe adottakat. A modell seg´ıtségével két lépésben o¨sszesen 250 jelentkezést fogadtak el. Betegek a´llapotelemzése : Cukros betegek a´llapotának felmérése után döntéstámogató módszerek seg´ıtségével határozták meg az u ´ j betegek rizikófaktorait és javasolt kezelési módszerét. A projekt id˝otartama 3 év, a modell kialak´ıtásakor 3500 beteg adatait dolgozták fel orvosszakért˝ok bevonásával. A f˝obb tulajdonságok a kórtörténet, a jelenlegi státusz és a teszteredmények voltak, ezek kiértékelési f¨ uggvényét adatbányászati módszerekkel határozták meg a kiindulási adatokból. Az u ´ j betegek a´llapotának alakulásával párhuzamosan friss´ıtették a modellt a nagyobb hatékonyság elérése érdekében. Min˝oségelemzés, ajánlat kiválasztás : A szlovén informatikai hivatal két folyamatának automatizálását t˝ uzte ki célul : beszáll´ıtók ajánlatainak o¨sszehasonl´ıtása, a megvalós´ıtási technikák o¨sszehasonl´ıtása. A lehet˝oségek o¨sszevetése nagy szakmai tapasztalatot igényelt, sok informatikai szakért˝o bevonására volt sz¨ ukség. A létrehozott modellek közös tulajdonsága volt a nagyon sok attrib´ utum (18-19 alap és 10-12 aggregált). A tesztelés után éles alkalmazásra nem ker¨ ult sor, a modellek kés˝obbi felhasználásra kész¨ ultek. Kulturális pályázatok elb´ırálása : Egyszeri pályázati támogatások kiosztására hoztak lére döntéstámogató rendszert. A nehézséget az adatok jellege jelentette, ugyanis a pályázatok szöveges formában (soft data) ker¨ ultek beadásra. Az elemzést két f¨ uggetlen szakért˝o végezte minden pályázat esetében, majd ezeket o¨sszevetve a´llap´ıtották meg a döntési modell alaptulajdonságainak értékeit. A létrehozott modell szintén sok attrib´ utumot tartalmazott (15 alap, 9 aggregált). A rendszer második fázisa seg´ıt kik¨ uszöbölni a szubjektivitást, de a szakért˝oi


287

vélemények támadhatók, ami a fellebbezések nagy számával járt. Terhel´ es el˝ orejelz´ es A villamosenergia-szolgáltató iparban rendk´ıv¨ ul fontos szerepet játszik a jöv˝obeli igények minél korábbi felmérése. Minden év minden egyes szakának, hónapjának, napjának és o´rájának minimum és maximum terhelésére vonatkozó pontos becsléseinek birtokában, a közm˝ uvek jelent˝os megtakar´ıtásokra tehetnek szert a m˝ uködési tartalék beáll´ıtása, a karbantartás-¨ utemezés és a t¨ uzel˝oanyag-készlet management ter¨ uletein. Az egyik nagy szolgáltatónál az elm´ ult évtizedben egy automatizált terhelés-el˝orejelz˝o modult m˝ uködtettek a következ˝o két nap o´rákra lebontott terhelésének becslésére. A szolgáltató els˝o lépése a megel˝oz˝o tizenöt év o¨sszegy˝ ujtött adataiból egy szofisztikált terhelésmodell manuális megtervezése volt. A modell három komponensb˝ol ép¨ ult fel : éves alapterhelés, évközi periodikus terhelés, és az u ¨ nnepnapok extraterhelése. Az alapterheléshez való optimalizációra az adatokat az o´ránkénti aktuális terhelésb˝ol az éves a´tlagterhelést levonva, majd a kapott értéket az éves szórással leosztva standardizálták. Az elektromos terhelés három ciklus szerint mutat periodicitást : napi (itt a terhelés minimuma reggelre, maximuma pedig délre és délutánra esik), heti (hétvégente mutat alacsony értéket) és évszakonként (a nyaranta és telente megnövekv˝o f˝ utési illetve h˝ utési igény miatt). A nagyobb u ¨ nnepnapok, mint a ´ ev napja jelent˝os eltérést mutatnak az egyébként szokásos Hálaadás napja, Karácsony vagy az Uj´ terhelésadatoktól, ´ıgy ezeket k¨ ulön-k¨ ulön modellezték, a megel˝oz˝o tizenöt év adott napján és o´rájában mért a´tlagokkal. A kisebb a´llami u ¨ nnepnapokat, például a Kolombusz napját egy kalap alá veszik az iskolai sz¨ unnapokkal és a normál napi minta járulékos terheléseként kezelik. Mindezek a hatások megjelennek az évet tipikus napok sorozataként rekonstruálva, az u ¨ nnepnapokat hely¨ ukre illesztve, denormalizálva a teljes növekményt kitev˝o terhelést. Mindeddig a terhelésmodell statikus volt, amelyet a korábbi adatok felhasználásával, manuálisan szerkesztettek meg, és implicite magában hordozta azt a feltevést, hogy a kl´ımaviszonyok nem térnek el a normálistól” az év során. Az utolsó lépés az id˝ojárás, mint ” k¨ uls˝o faktor modellbe illesztése volt. A módszer a mentett adatok közt az aktuálishoz hasonló id˝ojárási kör¨ ulmények után kutat, és a megtalált nap értékeit használja a napi terhelés el˝orejelzéséhez. Ebben az esetben a rendszer a becsléssel korrigálja a statikus terhelésmodellt. Az extrém értékek elleni védelemre a rendszer a nyolc leginkább hasonlatos nap eltérésének ´ ankénti felbontás´ a´tlagával korrigál. Or´ u adatbázist hoztak létre három helyi meteorológiai a´llomás 15 évre visszamen˝o h˝omérséklet, páratartalom, szélsebesség és felh˝otakaróra vonatkozó adataiból, az aktuális terhelés és a statikus modell a´ltal jósolt terhelés k¨ ulönbségével kiegész´ıtve. Az iménti paraméterek terhelésre gyakorolt hatását lineáris regresszióanal´ızissel szám´ıtották ki, majd az egy¨ utthatókkal s´ ulyozták a hasonló napok keresésére használt távolságf¨ uggvényt. Az ´ıgy kapott rendszer ugyanolyan teljes´ıtményt produkált sokkal gyorsabban, mint a képzett meteorológusok, o´rák helyett percek alatt kész´ıtve el a napi el˝orejelzést. A rendszer operátorai tesztelhetik az el˝orejelzés érzékenységét az id˝ojárás szimulált változásainak hatására, és megvizsgálhatják az aktuálishoz leghasonlóbb napokat, amelyeket az algoritmus a finomhangolásoz felhasznált.


288

Diagnosztika A szakért˝oi rendszerek legfontosabb alkalmazási ter¨ ulete a diagnosztika. Bár sokszor a kézzel beáll´ıtott szabályok is jól teljes´ıtenek a szakért˝oi rendszerekben, a gépi tanulás lehet˝osége hasznos lehet olyan esetekben, amikor a manuális szabályalkotás t´ ulságosan munkaigényes. Az elektromechanikus eszközök (például motorok és generátorok) megel˝oz˝o szervizelése gátat vethet az ipari folyamatokat megzavaró hibák kialakulásának. A technikusok rendszeresen fel¨ ulvizsgálnak minden eszközt, k¨ ulönböz˝o pontokon mérve a rezonanciát, hogy felmérjék mely eszközök szorulnak szervizelésre. Tipikus meghibásodások közé tartoznak : a tengely eláll´ıtódása, mechanikai kilazulások, hibás csapágyak és kiegyenl´ıtetlen szivatty´ uk. Az egyik vegyi u ¨ zem több mint 1000 k¨ ulönböz˝o eszközt használ, a kisebb szivatty´ uktól egészen a hatalmas turbógenerátorokig, amelyek mindegyikét egészen a közelm´ ultig egy 20 éves tapasztalattal rendelkez˝o szakember szervizelte. Az eszköz talapzatán, k¨ ulönböz˝o pontokon végeznek vibrációmérést, és az energiaszintet vizsgálják Fourier-anal´ızis seg´ıtségével az alap forgási sebesség minden felharmonikusának mindhárom irányában a hibák detektálására. Ennek, az – a mérési és rögz´ıtési folyamat korlátoltsága miatt rendk´ıv¨ ul nagy hibaarány´ u – információnak a tanulmányozását a diagnosztizáló szakember végzi. Néhány szituációra ugyan manuálisan kifejlesztettek szabályrendszereket, de a fejlesztési folyamatot számos k¨ ulönböz˝o berendezésre k¨ ulön-k¨ ulön meg kellett volna ismételni, ´ıgy ker¨ ult látótérbe a gépi tanulás. Hatszáz hiba, mindegyik mérési adatokkal és a szakért˝o diagnózisával rendelkezésre a´llt, a problémakör h´ uszévnyi tapasztalataként. Az adatok kör¨ ulbel¨ ul fele k¨ ulönböz˝o okok miatt elégtelen volt, ´ıgy figyelmen k´ıv¨ ul hagyták, a maradékot pedig tan´ıtóhalmaznak használták. A cél nem a hiba detektálása, hanem annak kategorizálása, diagnosztizálása volt. Így nem volt sz¨ ukség hibamentes esetek adataival b˝ov´ıteni a tan´ıtóhalmazt. Mivel a mért attrib´ utumok meglehet˝osen alacsony szint˝ uek voltak, ´ıgy ki kellett b˝ov´ıteni azokat a származtatott – ter¨ uletspecifikus információval b´ıró – fogalmakkal, például az alap tulajdonságok funkcióival, amelyeket a szakért˝o bevonásával definiáltak. A származtatott attrib´ utumokra lefuttattak egy indukciós algoritmust, hogy el˝oa´ll´ıtsák a diagnosztizáló szabálykészletet. Kezdetben a szakért˝o nem volt elégedett a szabályokkal, mert nem tudta azokat a saját tudásához és tapasztalatához viszony´ıtani. Számára a puszta statisztikai megalapozottság o¨nmagában nem volt elegend˝o bizony´ıték. További háttértudást kellett felhasználni miel˝ott elkész¨ ulhetett a megfelel˝o szabályrendszer. Ugyan az eredmény¨ ul kapott szabályok meglehet˝osen bonyolultra siker¨ ultek, a szakért˝onek tetszettek, mert mechanikai tudása és tapasztalata alapján ellen˝orizni tudta azo¨ ult, hogy a szabályok harmada egybeesett az a´ltala is használtakkal, a maradék egy kat. Or¨ része pedig széles´ıtette rálátását a rendszerre. A teljes´ıtménytesztek azt mutatták ki, hogy az u ´ jonnan kinyert szabályok alig voltak jobbak a korábban manuálisan feláll´ıtottaknál. Az eredményt kés˝obb a vegyi u ¨ zem is meger˝os´ıtette. Ugyanakkor érdemes megjegyezni, hogy a szabályrendszert nem a jó teljes´ıtménye miatt a´ll´ıtották u ¨ zembe, hanem mert a ter¨ ulet szakért˝oje elismer˝oen vélekedett róla.

F¨ uggel´ ek F¨ uggel´ ek A .1. t´ etel. A Gy˝ ujt˝ olapok és Tekintélyek sor´ an alkalmazott iter´ aci´ o sor´ an t (i) , illetve g (i) sorozatok konverg´ alnak nemnegat´ıv érték˝ u vektorokhoz. Teh´ at l´ assuk be, hogy amennyiben A egy 1 tetsz˝ oleges gr´ af adjacencia m´ atrixa és v (0) = ... = j t , akkor a 1

v (i) =

AAT v (i−1) [AAT v (i−1) ]

iter´ aci´ oa ´ltal kapott sorozat konverg´ al. Megjegyzés 1 : Az iterációs lépésb˝ol közvetlen¨ ul adódik, hogy v (i) az (AAT )i j t irány´ u egységvektor. Megjegyzés 2 : g (i) konvergenciájából t(i) konvergenciája is következik A és AT felcserélésével. A tétel bizony´ıtásához sz¨ ukség¨ unk van néhány segédtételre. .2. lemma. Legyen A ∈ R(n×n). Ekkor AAT (és hasonl´ oan AT A is) pozit´ıv szemidefinit szimmetrikus m´ atrix. Bizony´ıt´ as: A szimmetrikusság a mátrixszorzás szabályából közvetlen¨ ul adódik. Felhasználva T T T a vA = (A v ) azonosságot vAAT v T = (AT v T )T (AT v T ) = w T w ≥ 0 adódik, ami bizony´ıtja, hogy AAT pozit´ıv szemidefinit.

.3. lemma. Ha M m´ atrix pozit´ıv szemidefinit és szimmetrikus, akkor saj´ atértékei val´ osak és nemnegat´ıvak. .4. t´ etel (Perron-Frobenius). Ha egy m´ atrix aperiodikus, irreducibilis és nemnegat´ıv elem˝ u, akkor legnagyobb abszol´ utérték˝ u saj´ atértékhez tartoz´ o saj´ atvektor nemnegat´ıv koordinataj´ u, és nincs m´ as, ilyen abszol´ ut értek˝ u, saj´ atérték. .5. lemma. M m´ atrix pozit´ıv szemidefinit szimmetrikus, 2 ≥ . . . ≥ λk ≥ 0, (k < n) Pkλ1 > λ(i) n saj´ atértékekkel. Ekkor tetsz˝ oleges v ∈ R fel´ırhat´ o v = i=1 αi w alakban, ahol ||w (i) || = (i) (j) (i) (i) = 1, w w = 0 ha i 6= j és M w = λi w . 289


290

Térj¨ unk vissza az .1-ös tétel bizony´ıtásához. Bizony´ıt´ as: Jelölj¨ uk AAT mátrixot M -el. Feltehetj¨ uk, hogy M aperiodikus, P 2 hiszen mii az i-edik pontból más pontba mutató élszám négyzetének o¨sszegét adja meg ( k mik ), ami csak akkor lehet 0, ha i-edik pontból nem indul él. Ez a pont a konvergencia tényét nem befolyásolja, mert M minden hatványának megfelel˝o sora és oszlopa csupa 0 elemb˝ol fog a´llni, tehát jogos a feltételezés. Azt is feltehetj¨ uk, hogy M irreducibilis, mert ha nem az, akkor mátrixot irreducibilis blokkmátrixokra bonthatjuk, és a hatványozást blokkonként végezhetj¨ uk. Tudjuk tehát, hogy M nemnegat´ıv elem˝ u, aperiodikus, irreducibilis, pozit´ıv szemidefinit szimmetrikus mátrix, ami miatt minden sajtátérték nemnegat´ıv, a legnagyobb sajátértéke egyszeres, továbbá az ehhez o sajátvektor nemnegat´ıv elem˝ u. Legyen v ∈ R n tetsz˝oleges vekPk tartoz´ Mjv tor. .5 alapján v = i=1 αi w (i) és w (1) egyértelm˝ u, nemnegat´ıv elem˝ u vektor. A ||M es j v|| kifejez´ (1) w -hez tart ha j → ∞, mert Pk Pk j (i) j (i) Mjv α M w i i=1 αi λi w i=1 = qP = P ||M j v|| || ki=1 αi M j w (i) || k j 2 i=1 (αi λi ) P α1 λj1 w (1) + ki=2 αi λji w (i) q · P (α1 λj1 )2 + ki=1 (αi λji )2

1 λj1 1 λj1

P α1 w (1) + ki=2 αi = q P α12 + ki=1 (αi

λi j (i) w λ1 λi λ1

j

)2

→ w (1)

A normálás során felhasználtuk, hogy a w (i) vektorok mer˝olegesek egymásra, és egységnyi hossz´ uak, a határérték meghatározásakor pedig azt, hogy λ 1 a legnagyobb sajátérték, tehát λi Mjv (1) < 1, i = 2, . . . , k-ra. Tehát ha v nem mer˝oleges w (1) -re, akkor ||M -hez konvergál. j v|| vektor w λ1 (1) (1) Ez azonban nem a´ll fenn, lévén jw > 0, mert w nemnegat´ıv elem˝ u vektor.


ANGOL antecedent approximate dependency association rule authority basket candidate classification confusion matrix consequent clustering confidence conviction data mining dead end problem decision rule decision tree dense episode false-positive false-negative frequent gain ratio goodness-of-split hash-tree hub impurity-based criteria item knowledge retrieval kurtosis levelwise lift locality-sensitive hashing (LSH)

MAGYAR feltételrész közel´ıt˝o f¨ ugg˝oség asszociációs szabály tekintélylap kosár jelölt osztályozás keveredési mátrix következményrész klaszterezés bizonyosság meggy˝oz˝odés adatbányászat zsákutca probléma döntési szabály döntési fa s˝ ur˝ u epizód hamis jelölt hiányzó elem gyakori nyereségarány vágás jósága hash-fa gy˝ ujt˝olap elem tudásfeltárás lapultság szintenként haladó f¨ uggetlenségi mutató ´ hely-érzékeny hashelés (HEH)

1. táblázat. Idegen kifejezések ford´ıtása (a-l)

291


ANGOL market-basket problem mode negative border oblivious decision tree outlier analysis pattern power divergence function principal component analysis product ranking replicated subtree problem sequence matching signature singular value decomposition skewness sparse spider trap problem stripped partition support threshold transaction valid z-score normalization

MAGYAR piaci-kosár probléma módusz esélyes jelölt hanyag döntési fák eltérés elemzés minta er˝o divergencia f¨ uggvény f˝okomponens anal´ızis termék rangsorolás ismétl˝od˝o részfa probléma sorozatillesztés lenyomat szinguláris felbontás ferdeség ritka pókháló probléma redukált part´ıció támogatottság k¨ uszöb tranzakció érvényes standard normalizálás

2. táblázat. Idegen kifejezések ford´ıtása (m-z)

292

T´ argymutat´ o χ2 próba, 29 a´tlagos négyzetes hiba, 154 a´tlagos négyzetes hibagyök, 154 min supp, 60 Apriori, 63 Eclat algoritmus, 77 FP-growth algoritmus, 80 11 pontos a´tlagos pontosság, 190

Bayes-módszer naiv, 185, 191 bemeneti sorozat, 60 bizottság osztályozóké, 188 tagok, 188 boosting eljárások AdaBoost, 189

A minta nagysága, 85 abszol´ ut hibaátlag, 154 AdaBoost, 189 adat strukturálatlan, 179 strukturált, 179 tanuló, 185 teszt, 185 validációs, 185 adatbázis horizontális, 61 vertikális, 61 algoritmus helyesen m˝ uköd˝o, 235 mohó, 191 teljes, 235 anti-monoton, 230 APRIORI módszer, 235 apriori algoritmus, 211 APRIORI-CLOSE, 238 asszociációs szabály, 91, 92 érdekessége, 94 érvényes, 92 bizonyossága, 92 egzakt, 92 hierarchikus, 105, 106 támogatottsága, 92 average linkage, 173

centroid kapcsolódás, 197 centroid–egyszer˝ u kapcsolódás, 197 χ2 -statisztika, 183 complet linkage, 173 csoportos´ıtás szövegeké, 194 hierarchikus klaszterez˝ok, 197 jellegzetességek, 195 k-átlag módszerek, 197 dimenzió csökkentése, 182 kategorizálásnál, 183 dokumentum a´brázolása, 181 el˝ofeldolgozása, 180 reprezentációja, 180 bináris, 182 csoportos´ıtásnál, 195 dokumentum frekvencia k¨ uszöböl˝o, 183 dokumentumgy˝ ujtemény reprezentálása, 182 dokumentumok csoportos´ıtása, 194 dokumentumok el˝ofeldolgozása, 180 döntési fa szövegosztályozó, 186 Duquenne–Guigues-bázis, 93 egyens´ ulyi pont felidézésé és pontosságé, 190 ekvivalencia-reláció, 23 293

´ ´ TARGYMUTAT O elemhalmaz, 251 fedés, 60 gyakori, 60 gyakorisága, 61 elméleti regressziós görbe, 113 eloszlás χ2 , 27 binomiális, 26 hipergeometrikus, 27 normális, 27 Poisson, 26 entrópia, 27 entrópia, 196 Euklideszi-norma, 40 f¨ uggetlenségvizsgálat, 29 f˝okomponens analizis, 54 fel¨ ugyelet nélk¨ uli tanulás, 159 felidézés, 157 felidézés, 189, 201 szintenkénti, 192 fel¨ ugyelet nélk¨ uli tanulás, 195 fel¨ ugyelt tanulás, 185 ferdeség, 38 F-mérték, 190 csoportos´ıtásnál, 196 szintenkénti, 192 fogalomtárs´ıtás, 209 fontosság, 216 FP-fa vet´ıtett, 82 funkció szavak, 183 funkció szavak elhagyása, 183 FUP algoritmus, 248 Galois-kapcsolat, 87 Galois-lezárás operátor, 87 GSP, 254 gy˝ ujt˝olap, 220 gyakorisági k¨ uszöb, 239 gyakorisági k¨ uszöböt, 61 gyakoriság, 182 halmaz, 23 lokálisan véges, 230 rangszámozott, 230

294 halmazcsalád, 75 hatékonyság mérése szövegbányászatnál a´ltalában, 184 szövegek csoportos´ıtásánál, 196 szövegosztályozás egyszer˝ u, 189 hierarchikus, 192 hiba szövegosztályozásnál, 189 hierarchikus asszociációs szabály érdekessége, 107 hierarchikus klaszterez˝o, 197 egyes´ıt˝o, 197 felosztó, 197 ierarchikus klaszterez˝o UPGMA, 197 hierarchikus szövegosztályozás, 191 HITEC, 192 Hoeffding-korlát, 27 információ nyereség módszer, 183 információkinyerés, 209 invariáns hasonlóság, 39 inverz dokumentum frekvencia, 182 Ismételt mintavételezés, 152 Jaccard-koefficiens, 39 jelölt, 63, 236 hamis, 236 jelölt-el˝oa´ll´ıtás ismétlés nélk¨ uli, 63 jellemz˝ok kiválasztása, 183 k-legközelebbi szomszéd gráf, 163 kényszer er˝osen a´talak´ıtható, 233 kanonikus reprezentáció, 75 kappa statisztika, 156 kategóriaösvény, 192 kategóriarendszer, 184 kategorizálás l´ asd osztályozás 184 k-átlag eljárás kettészel˝o, 197 kérdés-megválaszoló rendszerek, 210 Kereszt-validáció, 152 kettészel˝o k-átlag eljárás, 197 keveredési mátrix, 155

´ ´ TARGYMUTAT O kivonatolás, 199 csoportos´ıtás alap´ u módszerek, 204 defin´ıció, 199 hatékonyságának mérése, 201 jellemz˝ok, 201 klasszikus módszer, 202 MEAD módszer, 205 MMR módszer, 204 mondatkiválasztással, 201 TF-IDF alap´ u módszer, 203 weboldalaké, 207 Klaszterezés, 158 klaszterezés l´ asd csoportos´ıtás 194 k-NN l´ asd legközelebbi szomszédok 186 kontingencia-táblázat, 30 korrelációs egy¨ uttható, 154 koszinusz-mérték, 41 Laplace estimation, 148 lapultság, 38 látens szemantikus indexelés (LSI), 183 leave-one-out, 152 legközelebbi szomszédok szövegosztályozó, 186 lexikografikus rendezés, 24 lexikon l´ asd szótár 181 lineáris kiterjesztés, 231 lineárisan szeparálható osztályok, 120 logisztikus f¨ uggvényt, 125 logit f¨ uggvénynek, 126 LSI l´ asd látens szemantikus indexelés 183 lusta tanuló, 186 módusz, 26 Manhattan-norma, 40 min freq, 61, 239 Minkowski-norma, 40 minta, 230 u ¨ res, 230 elhanyagolt, 236 gyakori, 230 gyakorisága, 239 jelölt, 236 mérete, 230 nem b˝ov´ıthet˝o, 232 ritka, 230

295 támogatottsága, 230 zárt, 232 mintafelismerés, 183 mintahalmaz, 230 mintatér, 230 mohó algoritmus, 191 névelem, 211 naiv Bayes-módszer, 185 hierarchikus osztályozás, 191 Naiv mintavételez˝o algoritmus, 245 neurális hálózat, 187 oldalak rangsorolása, 215 ,,oszd meg és uralkodj” stratégia, 187 osztályozás egyszer˝ u, 184 hierarchikus, 184 szövegeké, 184 o¨sszegzéskész´ıtés, 199 a´ltalános, 200 indikat´ıv, 200 informat´ıv, 200 kérdés-vezérelt, 200 pókháló probléma, 218 Page Rank, 216, 219 part´ıciós algoritmus, 245 PATRICIA fa, 32 perceptron, 187 pontosság, 189, 201 szintenkénti, 192 Porter-algoritmus, 211 próba Student t-próba, 31 predikátum anti-monoton, 233 monoton, 233 prefix anti-monoton, 233 prefix monoton, 233 triviális, 233 prefix, 231 pszeudo-zárt elemhalmaz, 93 részben rendezés, 23 részminta, 230 valódi, 230

´ ´ TARGYMUTAT O rétegzett particionálás, 151 rang-vektor, 216 relat´ıv abszol´ ut hiba, 154 relat´ıv négyzetes hiba, 154 relat´ıv négyzetes hibagyök, 154 Reuters-gy˝ ujtemény, 191 Rocchio-eljárás, 122 shrinkage, 191 single linkage eljárás, 172 sorozat, 24 stopwords, 183 strukturálatlan adat, 179 strukturált adat, 179 s´ ulybeáll´ıtás addit´ıv, 187 multiplikat´ıv, 187 s´ ulyozás bináris, 182 TF, 182 TFIDF, 182, 203 SVD l´ asd szinguláris értékfelbontás 183 SVM, 188 szófa, 31, 66 láncolt listás implementáció, 32 nyesett, 32 táblázatos implementáció, 31 szabatosság, 189 szavazásos osztályozás, 188 szerkesztési távolság, 41 szerkesztési elv, 204 szeszélyes sztochasztikus szörföl˝o, 219 szigmoid, 125 szinguláris felbontás, 54 szinguláris értékfelbontás (SVD), 183, 206 szó–dokumentum mátrix, 182 szófajc´ımkéz˝o, 211 szótár, 181 mérete, 182 méretének csökkentése, 182 kategorizálásnál, 183 szótövez˝o, 181, 211 szövegbányászat a´ltalános modellje, 180 defin´ıció, 179 szövegek kategorizálása, 184

296 szöveges információk vizualizálása, 210 szövegosztályozás, 184 hierarchikus, 191 szövegosztályozó bizottság, 188 döntési fa alap´ u, 186 HITEC, 192 legközelebbi szomszédokon alapuló, 186 naiv Bayes-módszer, 185, 191 neurális hálózat alap´ u, 187 SVM, 188 szavazásos, 188 sztochasztikus szörföl˝o, 217 támogatottsági f¨ uggvény, 230 támogatottsági k¨ uszöb, 60, 230 tanulás fel¨ ugyelet nélk¨ uli, 195 fel¨ ugyelt, 185 tanulási ráta, 187 tanulóhalmaz, 185 taxonómia, 105 taxonómia, 184, 191, 195 tekintélylapok, 220 teljes rendezés, 23 témakövetés, 209 teszthalmaz, 185 tesztkorpuszok szövegszo2vegklaszterezeshez, 198 szövegosztályozáshoz, 212 TID-halmaz, 78 token, 181 tranzakció, 60 u ´ jraparametrizálás, 183 univerzálisan népszer˝ u lapok, 221 UPGMA módszer, 197 validációs halmaz, 185 variáns hasonlóság, 39 vektortér-modell, 181 Ward módszer, 173 Webes adatbányászat, 215 weka Associate f¨ ul, 93 Classify f¨ ul, 112

´ ´ TARGYMUTAT O Arff formátum, 37 sparse arff formátum, 37 weka.associations.Apriori, 64, 108 weka.associations Apriori, 104 Conviction, 104 Leverage, 104 weka.attributeSelection LatentSemanticAnalysis, 57 weka.classifiers Classifier evaluation options, 156, 157 Classifier output, 156 functions.LeastMedSq, 124 functions.LinearRegression, 124 functions.Logistic, 127 functions.MultilayerPerceptron, 130 functions.SimpleLinearRegression, 124 functions.Winnow, 122 lazy.IB1, 117 lazy.IBk, 119 Result list panel, 137 rules.OneR, 134 rules.Prism, 136 rules.ZeroR, 134 Test options panel, 153, 156 trees csomag, 137 trees.Id3, 141 trees.J48, 144 trees.UserClassifier, 139 weka.clusterers DBScan, 177 SimpleKMeans, 170 weka.filters.supervised attribute.Discretize, 47 instance.Resample, 53 instance.SpreadSubsample, 53 instance.StratifiedRemoveFolds, 53 weka.filters.unsupervised attribute.Add, 43 attribute.AddExpression, 43 attribute.AddID, 43 attribute.AddNoise, 45 attribute.Center, 47 attribute.ChangeDateFormat, 37 attribute.Copy, 43

297 attribute.Discretize, 46 attribute.FirstOrder, 43 attribute.InterquartileRange, 44 attribute.MathExpression, 43 attribute.MergeTwoValues, 37 attribute.NominalToBinary, 37, 108 attribute.Normalize, 47 attribute.NumericCleaner, 45 attribute.NumericToNominal, 37 attribute.NumericTransform, 44 attribute.Obfuscate, 45 attribute.PKIDiscretize, 46 attribute.PrincipalComponents, 57 attribute.Remove, 44 attribute.RemoveType, 44 attribute.RemoveUseless, 44 attribute.ReplaceMissingValues, 42 attribute.Standardize, 47 instance.RemoveFolds, 53 instance.RemoveMisclassified, 45 instance.RemovePercentage, 53 instance.RemoveWithValues, 45 instance.Resample, 53 instance.ReservoirSample, 53 Winnow, 187 kiegyens´ ulyozott, 187 zárt elemhalmaz, 87 zsákutca probléma, 218

Irodalomjegyz´ ek [1] L. Aas – L. Eikvil : Text categorisation : A survey. NR 941. Raport, 1999, Norwegian Computing Center. [2] Pieter Adriaans – Dolf Zantinge : Adatb´ any´ aszat. Budapest, 2002, Panem Kiadó. [3] Ramesh C. Agarwal – Charu C. Aggarwal – V. V. V. Prasad : A tree projection algorithm for generation of frequent item sets. Journal of Parallel and Distributed Computing, 61. évf. (2001) 3. sz. URL http://citeseer.nj.nec.com/agarwal99tree.html. [4] R. Agrawal – R. Srikant : Fast algorithms for mining association rules in large databases. In Proc. of VLDB 94, the 20th Int. Conf. on Very Large Data Bases (konferenciaanyag). Santiago de Chile, Chile, 1994, 487–499. p. [5] Rakesh Agrawal – Tomasz Imielinski – Arun N. Swami : Mining association rules between sets of items in large databases. In Peter Buneman – Sushil Jajodia (szerk.) : Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data (konferenciaanyag). Washington, D.C., 1993. 26-28, 207–216. p. URL http://citeseer.nj.nec.com/agrawal93mining.html. [6] Rakesh Agrawal – Heikki Mannila – Ramakrishnan Srikant – Hannu Toivonen – A. Inkeri Verkamo : Fast discovery of association rules. In Advances in Knowledge Discovery and Data Mining (konferenciaanyag). 1996, 307–328. p. [7] Rakesh Agrawal – Ramakrishnan Srikant : Fast algorithms for mining association rules. In Jorge B. Bocca – Matthias Jarke – Carlo Zaniolo (szerk.) : Proceedings of the 20th International Conference Very Large Data Bases, VLDB (konferenciaanyag). 1994. 12-15, Morgan Kaufmann, 487–499. p. ISBN 1-55860-153-8. URL http://citeseer.nj.nec.com/agrawal94fast.html. [8] Rakesh Agrawal – Ramakrishnan Srikant : Mining sequential patterns. In Philip S. Yu – Arbee L. P. Chen (szerk.) : Proceedings of the 11th International Conference on Data Engineering, ICDE (konferenciaanyag). 1995. 6-10, IEEE Computer Society, 3–14. p. ISBN 0-8186-6910-1. URL http://citeseer.nj.nec.com/agrawal95mining.html. [9] Rényi Alfréd : Val´ osz´ın˝ uségsz´ am´ıt´ as. 1968, Tankönyvkiadó. [10] Brian Amento – Loren G. Terveen – William C. Hill : Does authority” mean quality ? pre” dicting expert quality ratings of web documents. In Research and Development in Information Retrieval (konferenciaanyag). 2000, 296–303. p. URL http://citeseer.nj.nec.com/417258.html. 298

´ IRODALOMJEGYZEK

299

[11] Amihood Amir – Ronen Feldman – Reuven Kashi : A new and versatile method for association generation. In Principles of Data Mining and Knowledge Discovery (konferenciaanyag). 1997, 221–231. p. URL http://citeseer.nj.nec.com/amir97new.html. [12] C. Apte – F. J. Damerau – S. M. Weiss : Automated learning of decision rules for text categorization. ACM Trans. Information Systems, 12. évf. (1994. July) 3. sz. [13] Franz Aurenhammer : Voronoi diagrams—a survey of a fundamental geometric data structure. ACM Comput. Surv., 23. évf. (1991) 3. sz. ISSN 0360-0300. [14] Necip Fazil Ayan – Abdullah Uz Tansel – M. Erol Arkun : An efficient algorithm to update large itemsets with early pruning. In Knowledge Discovery and Data Mining (konferenciaanyag). 1999, 287–291. p. URL http://citeseer.nj.nec.com/ayan99efficient.html. [15] Yves Bastide – Rafik Taouil – Nicolas Pasquier – Gerd Stumme – Lotfi Lakhal : Mining frequent patterns with counting inference. SIGKDD Explor. Newsl., 2. évf. (2000) 2. sz. [16] Jon Louis Bentley : Multidimensional binary search trees used for associative searching. Commun. ACM, 18. évf. (1975) 9. sz. ISSN 0001-0782. [17] B. Berendt – B. Mobasher – M. Spiliopoulou – J. Wiltshire :. Measuring the accuracy of sessionizers for web usage analysis, 2001. URL http://citeseer.nj.nec.com/berendt01measuring.html. [18] M. W. Berry – S. T. Dumais – G. W. O’Brien : Using linear algebra for intelligent information retrieval. SIAM Review, 37. évf. (1995) 4. sz. [19] Alina Beygelzimer – Sham Kakade – John Langford : Cover trees for nearest neighbor. In ICML ’06 : Proceedings of the 23rd international conference on Machine learning (konferenciaanyag). New York, NY, USA, 2006, ACM, 97–104. p. ISBN 1-59593-383-2. [20] Krishna Bharat – Monika Rauch Henzinger : Improved algorithms for topic distillation in a hyperlinked environment. In Research and Development in Information Retrieval (konferenciaanyag). 1998, 104–111. p. URL http://citeseer.nj.nec.com/bharat98improved.html. [21] R. Blumberg – S. Arte : The problem with unstructured data. DM Review, 2003. February. http://www.dmreview.com/editorial/dmreview/print_action.cfm? articleId=6%287. [22] Ferenc Bodon : A fast apriori implementation. In Bart Goethals – Mohammed J. Zaki (szerk.) : Proceedings of the IEEE ICDM Workshop on Frequent Itemset Mining Implementations (FIMI’03), CEUR Workshop Proceedings konferenciasorozat, 90. köt. Melbourne, Florida, USA, 2003. November 19.. [23] Richard J. Bolton – David J. Hand : Significance tests for patterns in continuous data. In Proceedings of the 2001 IEEE International Conference on Data Mining (ICDE) (konferenciaanyag). 2001.

´ IRODALOMJEGYZEK

300

[24] Christian Borgelt : Efficient implementations of apriori and eclat. In Bart Goethals – Mohammed J. Zaki (szerk.) : Proceedings of the IEEE ICDM Workshop on Frequent Itemset Mining Implementations (FIMI’03), CEUR Workshop Proceedings konferenciasorozat, 90. köt. Melbourne, Florida, USA, 2003. [25] Christian Borgelt – Rudolf Kruse : Induction of association rules : Apriori implementation. In Proceedings of the 15th Conference on Computational Statistics (Compstat 2002, Berlin, Germany) (konferenciaanyag). Heidelberg, Germany, 2002, Physika Verlag. [26] L. Breiman : Bagging predictors. Machine Learning, 24. évf. (1996). [27] Leo Breiman – Jerome Friedman – Charles J. Stone – R. A. Olshen : Classification and Regression Trees. 1984. January, Chapman & Hall/CRC. ISBN 0412048418. [28] Sergey Brin – Rajeev Motwani – Jeffrey D. Ullman – Shalom Tsur : Dynamic itemset counting and implication rules for market basket data. SIGMOD Record (ACM Special Interest Group on Management of Data), 26(2) :255, 1997. [29] Sergey Brin – Lawrence Page : The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, 30. évf. (1998) 1–7. sz. URL http://citeseer.nj.nec.com/brin98anatomy.html. [30] Douglas Burdick – Manuel Calimlim – Johannes Gehrke : Mafia : A maximal frequent itemset algorithm for transactional databases. In Proceedings of the 17th International Conference on Data Engineering (konferenciaanyag). Heidelberg, Germany, 2001, IEEE Computer Society, 443–452. p. ISBN 0-7695-1001-9. [31] Krisztián Antal B´ uza : Egyszer˝ u asszociációs szabályok jelenséghálózatokkal támogatott ” keresése”. Doktori értekezés (Budapesti M˝ uszaki és Gazdaságtudományi Egyetem, Hungary). 2007. [32] Jadzia Cendrowska : Prism : An algorithm for inducing modular rules. International Journal of Man-Machine Studies, 27. évf. (1987) 4. sz. [33] S. Chakrabarti – B. Dom – R. Agrawal – P. Raghavan : Scalable feature selection, classification and signature generation for organizing large text databases into hierarchical topic taxonomies. The VLDB Journal, 7. évf. (1998) 3. sz. [34] Soumen Chakrabarti – Byron Dom – Prabhakar Raghavan – Sridhar Rajagopalan – David Gibson – Jon Kleinberg : Automatic resource compilation by analyzing hyperlink structure and associated text. Computer Networks and ISDN Systems, 30. évf. (1998) 1–7. sz. URL http://citeseer.nj.nec.com/chakrabarti98automatic.html. [35] Pete Chapman – Julian Clinton – Randy Kerber – Thomas Khabaza Thomas Reinartz – Colin Shearer – R¨ udiger Wirth : Cross industry standard process for data mining (crisp-dm) – step by step data mining guide. Jelentés, 1999. [36] David Wai-Lok Cheung – Jiawei Han – Vincent Ng – C. Y. Wong : Maintenance of discovered association rules in large databases : An incremental updating technique. In ICDE (konferenciaanyag). 1996, 106–114. p. URL http://citeseer.nj.nec.com/cheung96maintenance.html.

´ IRODALOMJEGYZEK

301

[37] David Wai-Lok Cheung – Sau Dan Lee – Ben Kao : A general incremental technique for maintaining discovered association rules. In Database Systems for Advanced Applications (konferenciaanyag). 1997, 185–194. p. URL http://citeseer.nj.nec.com/cheung97general.html. [38] Robert Cooley – Bamshad Mobasher – Jaideep Srivastava : Data preparation for mining world wide web browsing patterns. Knowledge and Information Systems, 1. évf. (1999) 1. sz. URL http://citeseer.nj.nec.com/cooley99data.html. [39] Thomas M. Cover – Joy A. Thomas : Elements of Information Theory. Wiley Series in Telecommunications sorozat. 1991, John Wiley & Sons, Inc. [40] I. Dagan – Y. Karov – D. Roth : Mistake-driven learning in text categorization. In Claire Cardie – Ralph Weischedel (szerk.) : Proc. of EMNLP-97, 2nd Conference on Empirical Methods in Natural Language Processing (konferenciaanyag). Providence, RI, 1997, Association for Computational Linguistics, 55–63. p. [41] S. D’Alessio – K. Murray – R. Schiaffino – A. Kershenbaum : The effect of using hierarchical classifiers in text categorization. In Proc. of 6th Int. Conf. Recherche d’Information Assistee par Ordinateur (RIAO-00) (konferenciaanyag). Paris, France, 2000, 302–313. p. http://citeseer.ist.psu.edu/410559.html ; retrieved on 2005.08.26. [42] R. de la Briandais : File searching using variable-length keys. In Western Joint Computer Conference (konferenciaanyag). 1959. March, 295–298. p. [43] S. Deerwester – S. T. Dumais – G. W. Furnas – T. K. Landauer – R. Harshman : Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41. évf. (1990) 6. sz. [44] T. G. Dietterich – M. Kearns – Y. Mansour : Applying the Weak Learning Framework to Understand and Improve C4.5. In L. Saitta (szerk.) : Proceedings of the 13th International Conference on Machine Learning, ICML’96 (konferenciaanyag). San Francisco, CA, 1996, Morgan Kaufmann, 96–104. p. [45] P. Domingos – M. J. Pazzani : On the optimality of the simple Bayesian classifier under zero-one loss. Machine Learning, 29. évf. (1997) 2–3. sz. [46] S. T. Dumais : Improving the retrieval information from external sources. Behaviour Research Methods, Instruments and Computers, 23. évf. (1991) 2. sz. [47] S. T. Dumais – J. Platt – D. Heckerman – M. Sahami : Inductive learning algorithms and representations for text categorization. In Proc. of 7th ACM Int. Conf. on Information and Knowledge Management (CIKM-98) (konferenciaanyag). Bethesda, MD, 1998, 148– 155. p. [48] Margaret H. Dunham : Data Mining : Introductory and Advanced Topics. Upper Saddle River, NJ, USA, 2002, Prentice Hall PTR. ISBN 0130888923. [49] Herb Edelstein : Mining large databases – a case study. Jelentés, 1999, Two Crows Corporation.

´ IRODALOMJEGYZEK

302

[50] M. Ester – H.-P. Kriegel – X. Xu. : A database interface for clustering in large spatial databases. In Proceedings of the Knowledge Discovery and Data Mining Conference, Montreal, Canada (konferenciaanyag). 1995, 94–99. p. [51] Martin Ester – Hans-Peter Kriegel – Jorg Sander – Xiaowei Xu : A density-based algorithm for discovering clusters in large spatial databases with noise. In Evangelos Simoudis – Jiawei Han – Usama Fayyad (szerk.) : Second International Conference on Knowledge Discovery and Data Mining (konferenciaanyag). Portland, Oregon, 1996, AAAI Press, 226–231. p. URL http://citeseer.nj.nec.com/chu02incremental.html. [52] C. J. Fall – A. Törcsvári – P. Fievét – G. Karetka :. Additional readme information for WIPO-de autocategorization data set, 2003. March. http://www.wipo.int/ibis/ datasets/wipo-de-readme.html. [53] C. J. Fall – A. Törcsvári – G. Karetka :. Readme information for WIPO-alpha autocategorization training set, 2002. December. http://www.wipo.int/ibis/datasets/ wipo-alpha-readme.html. [54] C. J. Fall – A. Törcsvári – K. Benzineb – G. Karetka : Automated categorization in the international patent classification. ACM SIGIR Forum archive, 37. évf. (2003. Spring) 1. sz. [55] W. Fan – L. Wallace – S. Rich – Z. Zhang : Tapping into the power of text mining. Communications of the ACM, (in press). évf. (2005). http://filebox.vt.edu/users/wfan/ paper/text_mining_final_preprint.pdf. [56] Usama M. Fayyad – Gregory Piatetsky-Shapiro – Padhraic Smyth : From data mining to knowledge discovery : An overview. In Advances in Knowledge Discovery and Data Mining. 1996, AAAI Press/The MIT Pres, 1–34. p. [57] William Feller : Bevezetés a Val´ osz´ın˝ uségsz´ am´ıt´ asba és Alkalmaz´ asaiba. 1978, M˝ uszaki Könyvkiadó. [58] Bodon Ferenc : Hash-fák és szófák az adatbányászatban. Alkalmazott Matematikai Lapok, 21. évf. (2003). [59] E. W. Forgy : Cluster analysis of multivariate data : Efficiency versus interpretability of classifications. Biometric Soc. Meetings, Riverside, California, 21. évf. (1965). [60] Scott Fortin – Ling Liu : An object-oriented approach to multi-level association rule mining. In CIKM (konferenciaanyag). 1996, 65–72. p. [61] Edward Fredkin : Trie memory. Communications of the ACM, 3. évf. (1960) 9. sz. ISSN 0001-0782. [62] Y. Fu :. Discovery of multiple-level rules from large databases, 1996. URL http://citeseer.nj.nec.com/fu96discovery.html. [63] Iván Futó (szerk.) : Mesterséges Intelligencia. Budapest, 1999, Aula Kiadó.

´ IRODALOMJEGYZEK

303

[64] T. Gedeon – L. T. Kóczy : A model of intelligent information retrieval using fuzzy tolerance relations based on hierarchical co-occurrence of words. In F. Crestani – G. Pasi (szerk.) : Soft Computing in Information Retrieval : Techniques and Applications. Studies in Fuzziness and Soft Computing sorozat, 50. köt. Heidelberg, Germany, 2000, Physica-Verlag, 48–74. p. [65] S.B. Gelfand – C.S. Ravishankar – E.J. Delp : An iterative growing and pruning algorithm for classification tree design. IEEE Transactions on Pattern Analysis and Machine Intelligence, 13. évf. (1991) 2. sz. ISSN 0162-8828. [66] Bart Goethals : Survey on frequent pattern mining. 2002. Manuskript. [67] Bart Goethals – Mohammed J. Zaki : Advances in frequent itemset mining implementations : Introduction to fimi03. In Bart Goethals – Mohammed J. Zaki (szerk.) : Proceedings of the IEEE ICDM Workshop on Frequent Itemset Mining Implementations (FIMI’03), CEUR Workshop Proceedings konferenciasorozat, 90. köt. Melbourne, Florida, USA, 2003. November 19.. [68] M. D. Gordon – R. Lindsay – W. Fan : Literature-based discovery on the www. ACM Transactions on Internet Technology (TOIT), 2. évf. (2002) 4. sz. [69] Gosta Grahne – Jianfei Zhu : Efficiently using prefix-trees in mining frequent itemsets. In Bart Goethals – Mohammed J. Zaki (szerk.) : Proceedings of the IEEE ICDM Workshop on Frequent Itemset Mining Implementations (FIMI’03), CEUR Workshop Proceedings konferenciasorozat, 90. köt. Melbourne, Florida, USA, 2003. November 19.. [70] Sudipto Guha – Rajeev Rastogi – Kyuseok Shim : CURE : an efficient clustering algorithm for large databases. In ACM SIGMOD International Conference on Management of Data (konferenciaanyag). 1998. June, 73–84. p. URL http://citeseer.nj.nec.com/article/guha98cure.html. [71] J. Han – Y. Fu : Discovery of multiple-level association rules from large databases. Proceedings of the 21st International Conference on Very Large Databases (VLDB), Zurich, Switzerland, 1995. ´ ´ [72] Jiawei Han – Micheline Kamber : ADATBANY ASZAT - Koncepci´ ok és technik´ ak. 2004, Panem Könyvkiadó. [73] Jiawei Han – Micheline Kamber : Data mining : concepts and techniques (Second Edition). 2006, Morgan Kaufmann Publisher. [74] Jiawei Han – Jian Pei – Yiwen Yin : Mining frequent patterns without candidate generation. In Weidong Chen – Jeffrey Naughton – Philip A. Bernstein (szerk.) : 2000 ACM SIGMOD International Conference on Management of Data (konferenciaanyag). 2000. 05, ACM Press, 1–12. p. ISBN 1-58113-218-2. URL http://citeseer.nj.nec.com/han99mining.html. [75] Trevor Hastie – Robert Tibshirani – Jerome Friedman : The Elements of Statistical Learning : Data Mining, Inference and Prediction. 2001, Springer-Verlag.

´ IRODALOMJEGYZEK

304

[76] K. Hatonen – Mika Klemettinen – Heikki Mannila – P. Ronkainen – Hannu Toivonen : Knowledge discovery from telecommunication network alarm databases. In Stanley Y. W. Su (szerk.) : Proceedings of the twelfth International Conference on Data Engineering, February 26–March 1, 1996, New Orleans, Louisiana (konferenciaanyag). 1109 Spring Street, Suite 300, Silver Spring, MD 20910, USA, 1996, IEEE Computer Society Press, 115–122. p. URL http://citeseer.nj.nec.com/hatonen96knowledge.html. [77] Robert C. Holte : Very simple classification rules perform well on most commonly used datasets. Mach. Learn., 11. évf. (1993) 1. sz. ISSN 0885-6125. [78] Maurice Houtsma – Arun Swami :. Set-oriented mining of association rules, 1993. [79] D. A. Hull : Improving text retrieval for the routing problem using latent semantic indexing. In Proc. of SIGIR-94, 17th ACM Int. Conf. on Research and Development in Information Retrieval (konferenciaanyag). Dublin, Ireland, 1994, 282–289. p. [80] Index.hu :. Rákkelt˝o anyagok a mcdonaldsban és burger kingben. URL http://index.hu/gazdasag/vilag/mcrak060929. [81] Akihiro Inokuchi – Takashi Washio – Hiroshi Motoda : An apriori-based algorithm for mining frequent substructures from graph data. In Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery (konferenciaanyag). 2000, Springer-Verlag, 13–23. p. ISBN 3-540-41066-X. [82] Akihiro Inokuchi – Takashi Washio – Nishimura Yoshio – Hiroshi Motoda : A fast algorithm for mining frequent connected graphs,. Jelentés, 2002, IBM research, Tokyo Research Laboratory. [83] Korcsmáros István :. Szövegbányászat (text mining) — u ´ j fogalom az u ¨ zleti intelligencia témakörében. http://www.controllingportal.hu/index.php?doc=tk_t&t=16&d= 75, 2003. [84] Fazekas István : Bevezetés a matematikai statisztik´ aba. 2000, Debreceni Egyetem Kossuth Egyetemi Kiadója. [85] R. C. Jancey : Multidimensional group analysis. Austral. J. Botany, 14. évf. (1966). [86] Dr. Abonyi János : Adatb´ any´ aszat a hatékonys´ ag eszk¨ oze. Budapest, 2006, Computerbooks. [87] T. Joachims : A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization. In Proc. of ICML-97, 14th Int. Conf. on Machine Learning (konferenciaanyag). Nashville, TN, USA, 1997, 143–151. p. [88] T. Joachims : Text categorization with support vector machines : Learning with many relevant features. Technical Report, Dortmund, Germany, 1997, University of Dortmund, Dept. of Informatics. [89] Richard A. Johnson – Dean W. Wichern : Applied Multivariate Statistical Analysis. Fifth. kiad. Upper Saddle River, NJ, 2002, Prentice-Hall.

´ IRODALOMJEGYZEK

305

[90] Ravi Kannan – Santosh Vempala – Adrian Vetta : On clusterings : Good, bad and spectral. In Proceedings of the 41th Annual Symposium on Fundations of Computer Science (konferenciaanyag). 2000. URL http://citeseer.nj.nec.com/495691.html. [91] O. Kariv – S.L.Hakimi : An algorithmic approach to network location problems, part ii : p-medians. SIAM J. Appl. Math., 37. évf. (1979). [92] L. Kaufman – P.J. Rousseeuw : Finding Groups in Data : an Introduction to Cluster Analysis. 1990, John Wiley & Sons. [93] Michael Kearns – Yishay Mansour : On the boosting ability of top-down decision tree learning algorithms. In STOC ’96 : Proceedings of the twenty-eighth annual ACM symposium on Theory of computing (konferenciaanyag). New York, NY, USA, 1996, ACM Press, 459–468. p. ISBN 0-89791-785-5. [94] Ashraf M. Kibriya – Eibe Frank : An empirical comparison of exact nearest neighbour algorithms. In Proc 11th European Conference on Principles and Practice of Knowledge Discovery in Databases, Warsaw, Poland konferenciasorozat. 2007, Springer, 140–151. p. [95] Jon Kleinberg : An impossibility theorem for clustering. Advances in Neural Information Processing Systems (NIPS) 15, 2002. URL http://citeseer.nj.nec.com/561287.html. [96] Jon M. Kleinberg : Authoritative sources in a hyperlinked environment. Journal of the ACM, 46. évf. (1999) 5. sz. URL http://citeseer.nj.nec.com/kleinberg97authoritative.html. [97] Mika Klemettinen :. A knowledge discovery methodology for telecommunication network alarm databases, 1999. URL http://citeseer.nj.nec.com/klemettinen99knowledge.html. [98] Ron Kohavi : Mining e-commerce data : The good, the bad, and the ugly. In Foster Provost – Ramakrishnan Srikant (szerk.) : Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (konferenciaanyag). 2001, 8–13. p. URL http://citeseer.nj.nec.com/kohavi01mining.html. [99] D. Koller – M. Sahami : Hierarchically classifying documents using a very few words. In Proc. of ICML-97, 14th Int. Conf. on Machine Learning (konferenciaanyag). Nashville, TN, 1997, 170–178. p. [100] Michihiro Kuramochi – George Karypis : Frequent subgraph discovery. In Proceedings of the 2001 IEEE International Conference on Data Mining (konferenciaanyag). 2001, IEEE Computer Society, 313–320. p. ISBN 0-7695-1119-8. [101] Rónyai Lajos – Ivanyos Gábor – Szabó Réka : Algoritmusok. 1998, Typotex Kiadó. [102] Nada Lavrac – Dragan Gamberger – Hendrik Blockeel – Ljupco Todorovski (szerk.). ExAnte : Anticipated Data Reduction in Constrained Pattern Mining, Lecture Notes in Computer Science konferenciasorozat, 2838. köt. Springer, 2003. ISBN 3-540-20085-1.

´ IRODALOMJEGYZEK

306

[103] Wenke Lee – Salvatore Stolfo : Data mining approaches for intrusion detection. In Proceedings of the 7th USENIX Security Symposium (konferenciaanyag). San Antonio, TX, 1998. URL http://citeseer.nj.nec.com/article/lee00data.html. [104] Wenke Lee – Salvatore J. Stolfo : A framework for constructing features and models for intrusion detection systems. ACM Transactions on Information and System Security, 3. évf. (2000) 4. sz. URL http://citeseer.nj.nec.com/article/lee00framework.html. [105] Wenke Lee – Salvatore J. Stolfo – Kui W. Mok : A data mining framework for building intrusion detection models. In IEEE Symposium on Security and Privacy (konferenciaanyag). 1999, 120–132. p. URL http://citeseer.nj.nec.com/article/lee99data.html. [106] R. Lempel – S. Moran : The stochastic approach for link-structure analysis (SALSA) and the TKC effect. In WWW9 (konferenciaanyag). 2000. URL http://citeseer.nj.nec.com/346353.html. [107] D. D. Lewis : An evaluation of phrasal and clustered representations on a text categorization task. In Proc. of SIGIR-92, 15th ACM Int. Conf. on Research and Development in Information Retrieval (konferenciaanyag). Copenhagen, Denmark, 1992, 37–50. p. [108] D. D. Lewis : Naive (Bayes) at forty : The independence assumption in information retrieval. In Proc. of ECML-98, 10th European Conference on Machine Learning (konferenciaanyag). Chemnitz, Germany, 1998, 4–15. p. [109] Y. H. Li – A. K. Jain : Classification of text documents. Comput. J., 41. évf. (1998) 8. sz. [110] Bodrogi Lilla :. Legintimebb titkunk : a saját genetikai a´llományunk, 2007. URL http://www.origo.hu/tudomany/ 20070919-egyedi-emberi-genetikai-allomany-genom-elemzese-eloszor.html. [111] Heikki Mannila – Hannu Toivonen : Discovering generalized episodes using minimal occurrences. In Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD’96) (konferenciaanyag). 1996. August, AAAI Press, 146–151. p. URL http://citeseer.nj.nec.com/mannila96discovering.html. [112] Heikki Mannila – Hannu Toivonen – A. Inkeri Verkamo : Discovering frequent episodes in sequences. In Proceedings of the First International Conference on Knowledge Discovery and Data Mining (KDD’95) (konferenciaanyag). 1995. August, AAAI Press, 210–215. p. [113] Heikki Mannila – Hannu Toivonen – A. Inkeri Verkamo : Discovery of frequent episodes in event sequences. Data Mining and Knowledge Discovery, 1. évf. (1997) 3. sz. ISSN 1384-5810. URL http://citeseer.nj.nec.com/mannila97discovery.html. [114] Heikki Mannila – Hannu Toivonen – A. Inkeri Verkamo : Efficient algorithms for discovering association rules. In Usama M. Fayyad – Ramasamy Uthurusamy (szerk.) : AAAI Workshop on Knowledge Discovery in Databases(KDD-94) (konferenciaanyag). Seattle, Washington, 1994, AAAI Press, 181–192. p. URL http://citeseer.nj.nec.com/mannila94efficient.html.

´ IRODALOMJEGYZEK

307

[115] R. López De Mántaras : A distance-based attribute selection measure for decision tree induction. Mach. Learn., 6. évf. (1991) 1. sz. ISSN 0885-6125. [116] A. McCallum – R. Rosenfeld – T. Mitchell – A. Ng : Improving text classification by shrinkage in a hierarchy of classes. In Proc. of ICML-98, 15th Int. Conf. on Machine Learning (konferenciaanyag). Madison, US, 1998, 359–367. p. http://citeseer.ist.psu.edu/ mccallum98improving.html. [117] Brendan D. McKay : Practical graph isomorphism. Congressus Numerantium, 30. évf. (1981). URL http://cs.anu.edu.au/people/bdm/nauty/. [118] N. Megiddo – K.Supowitz : On the complexity of some common geometric location problems. SIAM J. Comput., 1984. [119] Jesus Mena : Data Mining und E-Commerce. D¨ usseldorf, 2000, Symposion Publishing. URL http://www.symposion.de/datamining. [120] Ulrich Meyer – Peter Sanders – Jop F. Sibeyn (szerk.). Algorithms for Memory Hierarchies, Advanced Lectures [Dagstuhl Research Seminar, March 10-14, 2002], Lecture Notes in Computer Science konferenciasorozat, 2625. köt. Springer, 2003. ISBN 3-540-00883-7. [121] T. M. Mitchell : Machine Learning. New York, NY, 1996, McGraw Hill. [122] Dunja Mladenic – NADA Lavrac – Marko Bohanec – Steve Moyle : Data Mining and Decision Support : Integration and Collaboration. 2003, Kluwer Academic Publishers. [123] Andreas Mueller : Fast sequential and parallel algorithms for association rule mining : A comparison. CS-TR-3515. Jelentés, College Park, MD, 1995, Departure of Computer Science, University of Maryland. URL http://citeseer.nj.nec.com/mueller95fast.html. [124] Raymond T. Ng – Jiawei Han : Efficient and effective clustering methods for spatial data mining. In Jorge B. Bocca – Matthias Jarke – Carlo Zaniolo (szerk.) : Proceedings of the 20th International Conference Very Large Data Bases, VLDB (konferenciaanyag). 1994. 12-15, Morgan Kaufmann, 144–155. p. ISBN 1-55860-153-8. URL http://citeseer.nj.nec.com/571734.html. [125] Edward Omiecinski – Ashoka Savasere : Efficient mining of association rules in large dynamic databases. In British National Conference on Databases (konferenciaanyag). 1998, 49–63. p. [126] Stephen M. Omohundro : Five balltree construction algorithms. Jelentés, 1989. December, International Computer Science Institute. [127] Stifán Orsolya : Adatbányászat és adatvédelem. In Dr. Székely Iván – Dr. Szabó Máté (szerk.) : Szabad adatok, védett adatok. ALMA MATER sorozat, 10. köt. Budapest, 2005, BME GTK ITM, 169–196. p. [128] Banu Ozden – Sridhar Ramaswamy – Abraham Silberschatz : Cyclic association rules. In ICDE (konferenciaanyag). 1998, 412–421. p. URL http://citeseer.nj.nec.com/ozden98cyclic.html.

´ IRODALOMJEGYZEK

308

[129] Lawrence Page – Sergey Brin – Rajeev Motwani – Terry Winograd : The pagerank citation ranking : Bringing order to the web. Jelentés, 1998, Stanford Digital Library Technologies Project. URL http://citeseer.nj.nec.com/page98pagerank.html. [130] Jong Soo Park – Ming-Syan Chen – Philip S. Yu : An effective hash based algorithm for mining association rules. In Michael J. Carey – Donovan A. Schneider (szerk.) : Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data (konferenciaanyag). San Jose, California, 1995. 22-25, 175–186. p. URL http://citeseer.nj.nec.com/park95effective.html. [131] N. Pasquier – Y. Bastide – R. Taouil – L. Lakhal : Pruning closed itemset lattices for association rules. In Proceedings of the BDA French Conference on Advanced Databases (konferenciaanyag). 1998. October. URL http://citeseer.nj.nec.com/pasquier98pruning.html. [132] N. Pasquier – Y. Bastide – R. Taouil – L. Lakhal : Efficient mining of association rules using closed itemset lattices. In Journal of Information systems (konferenciaanyag). 1999, 25– 46. p. [133] Nicolas Pasquier – Yves Bastide – Rafik Taouil – Lotfi Lakhal : Discovering frequent closed itemsets for association rules. In ICDT (konferenciaanyag). 1999, 398–416. p. URL http://citeseer.nj.nec.com/pasquier99discovering.html. [134] Jian Pei – Jiawei Han – Laks V. S. Lakshmanan : Mining frequent item sets with convertible constraints. In ICDE (konferenciaanyag). 2001, 433–442. p. URL http://citeseer.ist.psu.edu/383962.html. [135] Jian Pei – Jiawei Han – Runying Mao : CLOSET : An efficient algorithm for mining frequent closed itemsets. In ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery (konferenciaanyag). 2000, 21–30. p. URL http://citeseer.nj.nec.com/pei00closet.html. [136] Wim Pijls – Jan C. Bioch : Mining frequent itemsets in memory-resident databases. In Proceedings of the Eleventh Belgium /Netherlands Articial Intelligence Conference (BNAIC 99) (konferenciaanyag). 1999, 75–82. p. URL http://citeseer.nj.nec.com/pijls99mining.html. [137] Jim Porter : Disk/trend report. In Proceedings of the 100th Anniversary Conference on Magnetic Recording and Information Storage. Santa Clara Univerity, 1998. [138] M. F. Porter : An algorithm for suffix stripping. Program, 14. évf. (1980. July) 3. sz. [139] J. R. Quinlan : Induction of decision trees. Mach. Learn., 1. évf. 1. sz. ISSN 0885-6125. [140] J. R. Quinlan : Simplifying decision trees. Int. J. Man-Mach. Stud., 27. évf. (1987) 3. sz. ISSN 0020-7373. [141] J. Ross Quinlan : C4.5 : programs for machine learning. San Francisco, CA, USA, 1993, Morgan Kaufmann Publishers Inc. ISBN 1-55860-238-0.

´ IRODALOMJEGYZEK

309

[142] T. R. C. Read – N. A. C. Cressie : Goodness-of-Fit Statistics for Discrete Multivariate Data. Springer Series in Statistics sorozat. New York, 1988, Springer-Verlag. [143] Pál Rózsa : Line´ aris algebra és alkalmaz´ asai. 1991, Tankönyvkiadó, Budapest. [144] S. Sahni – T. Gonzales : P-complete approxiamtion problems. JACM, 23. évf. (1976). [145] G. Salton – C. Buckley : Term weighting approaches in autmatic text retrievel. Information Processing and Management, 24. évf. (1998) 5. sz. [146] G. Salton – M. J. McGill : An Introduction to Modern Information Retrieval. 1983, McGraw-Hill. [147] Nandlal L. Sarda – N. V. Srinivas : An adaptive algorithm for incremental mining of association rules. In DEXA Workshop (konferenciaanyag). 1998, 240–245. p. [148] Ashoka Savasere – Edward Omiecinski – Shamkant B. Navathe : An efficient algorithm for mining association rules in large databases. In The VLDB Journal (konferenciaanyag). 1995, 432–444. p. URL http://citeseer.nj.nec.com/sarasere95efficient.html. [149] R. E. Schapire – Y. Singer : BoosTexter : a boosting-based system for text categorization. Machine Learning, 39. évf. (2000) 2/3. sz. [150] R. E. Schapire – Y. Singer – A. Singhal : Boosting and Rocchio applied to text filtering. In Proc. of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval (konferenciaanyag). Melbourne, Australia, 1998, 215–223. p. [151] Matthew G. Schultz – Eleazar Eskin – Salvatore J. Stolfo :. Mef : Malicious email filter - a unix mail filter that detects malicious windows executables. URL http://citeseer.nj.nec.com/417909.html. [152] Matthew G. Schultz – Eleazar Eskin – Erez Zadok – Salvatore J. Stolfo :. Data mining methods for detection of new malicious executables. URL http://citeseer.nj.nec.com/417492.html. [153] H. Sch¨ utze – D. A. Hull – J. O. Pedersen : A comparison of classifiers and document representations for the routing problem. In Proc. of SIGIR-95, 18th ACM Int. Conf. on Research and Development in Information Retrieval (konferenciaanyag). Seattle, WA, 1995, 229–237. p. [154] F. Sebastiani : Machine learning in automated text categorization. ACM Computing Surveys, 34. évf. (2002. March) 1. sz. [155] F. Sebastiani – A. Sperduti – N. Valdambrini : An improved boosting algorithm and its application to automated text categorization. In Proc. of CIKM-00, 9th ACM Int. Conf. on Information and Knowledge Management (konferenciaanyag). McLean, VA, 2000, 78– 85. p. [156] Dennis G. Severance : Identifier search mechanisms : A survey and generalized model. ACM Comput. Surv., 6. évf. (1974) 3. sz. ISSN 0360-0300.

´ IRODALOMJEGYZEK

310

[157] Ron Shamir – Dekel Tsur : Faster subtree isomorphism. Journal of Algorithms, 33. évf. (1999) 2. sz. ISSN 0196-6774. [158] Li Shen – Hong Shen : Mining flexible multiple-level association rules in all concept hierarchies (extended abstract). In Database and Expert Systems Applications (konferenciaanyag). 1998, 786–795. p. [159] Y.-S. Shih : Families of splitting criteria for classification trees. Statistics and Computing, 9. évf. (1999) 4. sz. ISSN 0960-3174. [160] Abraham Silberschatz – Alexander Tuzhilin : On subjective measures of interestingness in knowledge discovery. In Knowledge Discovery and Data Mining (konferenciaanyag). 1995, 275–281. p. URL http://citeseer.nj.nec.com/silberschatz95subjective.html. [161] Spencer : The probabilistic method. In SODA : ACM-SIAM Symposium on Discrete Algorithms (A Conference on Theoretical and Experimental Analysis of Discrete Algorithms) (konferenciaanyag). 1992. [162] Ramakrishnan Srikant – Rakesh Agrawal : Mining generalized association rules. Proceedings of the 21st International Conference on Very Large Databases (VLDB), Zurich, Switzerland, 1995. [163] Ramakrishnan Srikant – Rakesh Agrawal : Mining sequential patterns : Generalizations and performance improvements. In Peter M. G. Apers – Mokrane Bouzeghoub – Georges Gardarin (szerk.) : Proceedings of 5th International Conference Extending Database Technology, EDBT (konferenciaanyag), 1057. köt. 1996. 25-29, Springer-Verlag, 3–17. p. ISBN 3-540-61057-X. URL http://citeseer.nj.nec.com/article/srikant96mining.html. [164] D. R. Swanson : Two medical literatures that are logically but not bibliographically connected. JASIS, 38. évf. (1987) 4. sz. ´ [165] T-Online :. Altal´ anos szerz˝odési feltételek, 2006. URL http://www.t-online.hu/dokumentumok/toh_aszf_060331.pdf. [166] Lyn C. Thomas : A survey of credit and behavioural scoring ; forecasting financial risk of lending to consumers. International Journal of Forecasting 16, 2000. [167] Lyn C. Thomas : A survey of credit and behavioural scoring ; forecasting financial risk of lending to consumers. International Journal of Forecasting, 16. évf. (2000). [168] Shiby Thomas – Sreenath Bodagala – Khaled Alsabti – Sanjay Ranka : An efficient algorithm for the incremental updation of association rules in large databases. In Knowledge Discovery and Data Mining (konferenciaanyag). 1997, 263–266. p. URL http://citeseer.nj.nec.com/thomas97efficient.html. [169] Shiby Thomas – Sunita Sarawagi : Mining generalized association rules and sequential patterns using SQL queries. In Knowledge Discovery and Data Mining (konferenciaanyag). 1998, 344–348. p. URL http://citeseer.nj.nec.com/thomas98mining.html.

´ IRODALOMJEGYZEK

311

[170] D. Tikk – Gy. Biró : Experiments with multilabel text classifier on the Reuters collection. In Int. Conf. on Computational Cybernetics (ICCC03) (konferenciaanyag). Siófok, Hungary, 2003, 33–38. p. [171] D. Tikk – Gy. Biró – J. D. Yang : A hierarchical text categorization approach and its application to FRT expansion. Australian Journal of Intelligent Information Processing Systems, 8. évf. (2004) 3. sz. [172] D. Tikk – Gy. Biró – J. D. Yang : Experiments with a hierarchical text categorization method on WIPO patent collections. In N. O. Attok-Okine – B. M. Ayyub (szerk.) : Applied Research in Uncertainty Modelling and Analysis. International Series in Intelligent Technologies sorozat, 20. köt. 2005, Springer, 283–302. p. [173] Hannu Toivonen : Sampling large databases for association rules. In The VLDB Journal (konferenciaanyag). 1996, 134–145. p. URL http://citeseer.nj.nec.com/toivonen96sampling.html. [174] K. Tumer – J. Ghosh : Error correlation and error reduction in ensemble classifiers. Connection Science, 8. évf. (1996) 3–4. sz. [175] Jeffrey K. Uhlmann : Satisfying general proximity/similarity queries with metric trees. Inf. Process. Lett., 40. évf. (1991) 4. sz. [176] J. R. Ullmann : An algorithm for subgraph isomorphism. J. ACM, 23. évf. (1976) 1. sz. ISSN 0004-5411. [177] C. J. van Rijsbergen : Information Retrieval. 2nd. kiad. London, 1979, Butterworths. http://www.dcs.gla.ac.uk/Keith. [178] John von Neumann :. First draft of a report on the EDVAC. Contract No. W–670–ORD– 4926 Between the United States Army Ordnance Department and the University of Pennsylvania, 1945. j´ unius. URL http://qss.stanford.edu/\~{}godfrey/vonNeumann/vnedvac.pdf. [179] Jianyong Wang – Jiawei Han – Jian Pei : Closet+ : Searching for the best strategies for mining frequent closed itemsets. In In Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’03) (konferenciaanyag). Washington, DC, USA, 2003. URL http://citeseer.nj.nec.com/wang03closet.html. [180] S. M. Weiss – C. Apte – F. J. Damerau – D. E. Johnson – F. J. Oles – T. Goetz – T. Hampp : Maximizing text-mining performance. IEEE Intelligent Systems, 14. évf. (1999. July/August) 4. sz. [181] W. Wibovo – H. E. Williams : Simple and accurate feature selection for hierarchical categorisation. In Proc. of the 2002 ACM symposium on Document engineering (konferenciaanyag). McLean, Virginia, USA, 2002, 111–118. p. [182] E. D. Wiener – J. O. Pedersen – A. S. Weigend : A neural network approach to topic spotting. In Proc. of the SDAIR-95, 4th Annual Symposium on Document Analysis and Information Retrieval (konferenciaanyag). Las Vegas, NV, 1995, 317–332. p.

´ IRODALOMJEGYZEK

312

[183] Ian H. Witten – Eibe Frank : Data Mining : Practical Machine Learning Tools and Techniques. Morgan Kaufmann Series in Data Management Sys sorozat. Second. kiad. 2005. June, Morgan Kaufmann. ISBN 0120884070. URL http://www.amazon.fr/exec/obidos/ASIN/0120884070/citeulike04-21. [184] Y. Yang : An evaluation of statistical approaches to text categorization. Information Retrieval, 1. évf. (1999) 1–2. sz. [185] Y. Yang – X. Liu : A re-examination of text categorization methods. In Proc. of SIGIR-99, 22nd ACM Int. Conf. on Research and Development in Information Retrieval (konferenciaanyag). Berkeley, CA, 1999, 42–49. p. [186] Y. Yang – J. P. Pedersen : Feature selection in statistical learning of text categorization. In Proc. of the 14th Int. Conf. on Machine Learning (konferenciaanyag). 1997, 412–420. p. [187] Ying Yang – Geoffrey I. Webb : Proportional k-interval discretization for naive-bayes classifiers. In EMCL ’01 : Proceedings of the 12th European Conference on Machine Learning (konferenciaanyag). London, UK, 2001, Springer-Verlag, 564–575. p. ISBN 3-540-42536-5. [188] S. B. Yao : Tree structures construction using key densities. In Proceedings of the 1975 annual conference (konferenciaanyag). 1975, ACM Press, 337–342. p. [189] Mohammed J. Zaki : Efficiently mining frequent trees in a forest. Jelentés, Troy, NY, 12180, 2001. July, Computer Science Department, Rensselaer Polytechnic Institute. [190] Mohammed J. Zaki : Efficiently mining frequent trees in a forest. In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining (konferenciaanyag). 2002, ACM Press, 71–80. p. ISBN 1-58113-567-X. [191] Mohammed J. Zaki – Karam Gouda : Fast vertical mining using diffsets. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining (konferenciaanyag). 2003, ACM Press, 326–335. p. ISBN 1-58113-737-0. [192] Mohammed Javeed Zaki : Sequence mining in categorical domains : Incorporating constraints. In CIKM (konferenciaanyag). 2000, 422–429. p. URL http://citeseer.nj.nec.com/zaki00sequence.html. [193] Mohammed Javeed Zaki – Ching-Jui Hsiao : Charm : An efficient algorithm for closed itemset mining. In Proceedings of 2nd SIAM International Conference on Data Mining (konferenciaanyag). Arlington, VA, USA, 2002. [194] Mohammed Javeed Zaki – Mitsunori Ogihara : Theoretical foundations of association rules. In Proceedings of third SIGMOD’98 Workshop on Research Issues in Data Mining and Knowledge Discovery (DMKD’98) (konferenciaanyag). Seattle, Washington, 1998. URL http://citeseer.nj.nec.com/zaki98theoretical.html. [195] Mohammed Javeed Zaki – Srinivasan Parthasarathy – Mitsunori Ogihara – Wei Li : New algorithms for fast discovery of association rules. In David Heckerman – Heikki Mannila – Daryl Pregibon – Ramasamy Uthurusamy – Menlo Park (szerk.) : Proceedings of the

´ IRODALOMJEGYZEK

313

third International Conference on Knowledge Discovery and Data Mining (konferenciaanyag). 1997. 12-15, AAAI Press, 283–296. p. ISBN 1-57735-027-8. URL http://http://citeseer.nj.nec.com/30063.html.

Adatbányászati algoritmusok

Recommend Documents