BME, Budapest. BME, Budapest, 2012.március 1

Bevezet˝ o D¨ ont´ esi szab´ alyok D¨ ont´ esi f´ ak Bayesi h´ al´ ozatok

Adatbányányászati módszerek ´ Illyés Agota BME, Budapest

BME, Budapest, 2012.március 1.

´ Illy´ es Agota

Adatb´ any´ any´ aszati m´ odszerek


Oszt´ alyoz´ as ´ es regresszi´ o

Adatbányászati (data mining) algoritmusokat az adatbázisból t˝ortén˝o tudásfeltárás (knowledge discovery in databases) során alkalmaznak. A tudáskinyerés adatbázisokb´ ol egy olyan folyamat, melynek során érvényes, u ´jszer˝ u, lehet˝ oleg hasznos és végs˝o soron érthet˝o mintákat fedez¨ unk fel az adatokban.

Klaszterezés és k¨ ul¨ onc pontok keresése ´ Illy´ es Agota




Megnevezések tisztázása

Regresszió vagy el˝ orejelzés (predikci´ o) a változ´ ot intervallum skálán mérj¨ uk

Osztályozás vagy klasszifikáci´ o (csoportba sorolás) a változ´ o diszkrét értékkészlet˝ u

´ Illy´ es Agota




Adatbányaszatban alkalmazott el˝orejelz˝o és klasszifikáló módszerek

Legközelebbi szomszéd m´ odszerek Lineáris és logisztikus regresszi´ o Mesterséges neurális hál´ ozatok Döntési szabályok, sorozatok és fák Naiv Bayes klasszifikáci´ o és Bayes hál´ ozatok SVM Metaalgoritmusok (boosting, bagging, randomization, stb.)

´ Illy´ es Agota




El˝orejelz˝o vagy klasszifikáló módszerek tulajdonságai el˝orejelzés teljes´ıtménye: milyen értékes információt ad számunkra a modell a nem megfigyelhet˝ o magyarázó változóról gyorsaság: a modell el˝ oáll´ıtásának és használatának id˝oigénye robusztusság: érzékeny-e a modell hiányz´ o, vagy outlier(beavatatlan) adatokra skálázhatóság: használhat´ o-e a modell nagyon nagy adathalmazokra is? értelmezhet˝oség: kinyerthet¨ unk-e az emberek számára értelmezhet˝o tudást a modell bels˝ o szerkezetéb˝ol? skála-invariancia: a klaszterezés lehetetlenség-elméletét adaptálva skála-invariánsnak h´ıvunk egy osztályzó eljárást, ha a módszer kimenete nem változik, ha tetsz˝ oleges intervallum t´ıpus´ u magyarázó változ´ o helyett annak α > 0-szorosát vessz¨ uk. ´ Illy´ es Agota Adatb´ any´ any´ aszati m´ odszerek



Az eljárások minimum két lépcs˝ oben m˝ uk¨ odnek: tan´ıtó adatbázison felép´ıtj¨ uk a modellt Alkalmazzuk a modellt u ´j adatokra, amelyen a magyarázott változó értéke nem ismert, de ismerni szeretnénk

´ Illy´ es Agota




Az osztályozás és a regresszió feladata Az osztályozás és regresszi´ o során n-esekkel (tuple) fogunk foglalkozni, amelyeket objektumoknak vagy elemeknek h´ıvunk. Adott lesz objektumok sorozata (vagy zsákja), amelyet tan´ıtó mintáknak, tan´ıtó pontoknak, tan´ıt´ o halmazoknak (ugyanaz az objektum többször is szerepelhet most ezekben a halmazokban) nevez¨ unk. A tan´ıtó pontok száma m vagy |τ | jel¨ olj¨ uk és val´ ojában tan´ıtásra a tan´ıtó pontok egy részét használjuk, a t¨ obbi pont szerepe a tesztelés. Az n-es j-edik elemét j-edik attrib´ utumnak h´ıvjuk és egy attrib´ utumra névvel is hivatkozhatunk (pl. kor, magasság, szélesség attrib´ utumok), nem csak sorszámmal. Minden attrib´ utumnak saját értékkészlete van. ´ Illy´ es Agota




Az osztályozás és a regresszió feladata Az A attrib´ utumváltoz´ on olyan változ´ ot ért¨ unk, amely az A értékkészletéb˝ol vehet fel értékeket. ´ anos módon egy klasszifikáci´ Altal´ o vagy el˝ orejelz˝ o módszer teljes´ıtményét várható hasznosságával mérhetj¨ uk. Y-magyarázandó attrib´ utumváltoz´ o X-magyarázó attrib´ utumváltoz´ o(k) f az X értékkeszletr˝ ol az Y értékkeszletre képez Célunk a E [U(Y , f (X ))] maximizálása, ahol U(y , yˆ ) jelöli az el˝orejelzett yˆ hasznosságát vagy E[L(Y , f (X ))] minimizálása, ahol L az U inverze, egy veszteséget mér˝o f¨ uggvény, ezt várhat´ o osztályozási hibának nevezik ´ Illy´ es Agota



Defin´ıci´ ok Szab´ alyhalmazok ´ es szab´ alysorozatok D¨ ont´ esi t´ abl´ azatok Az 1R algoritmus

Els˝o defin´ıció

Az A attrib´ utumhalmaz felett értelmezett d¨ ontési szabály alatt olyan R : φ(A) → Y = y logikai implikációt ért¨ unk, amelyek feltételrészében attrib´ utumokra vonatkozó feltételek logikai kapcsolatai állnak, a k¨ ovetkezményrészben pedig az osztályattrib´ utumra vonatkoz´ o ´ıtélet.

´ Illy´ es Agota




Példa: ˝ ERS ´ EKLET ´ ´ = nincs → IDO ˝ JAT ´ EKRA ´ HOM = magas AND SZEL alkamas Példa valósz´ın˝ uségi döntésre: nem = férfi AND gyerek száma = 0 AND aut´ o teljes´ıtmény > 150LE → kockázatos = (80%,20%)

´ Illy´ es Agota




a feltételrészben az AND, OR és negáci´ ot használjuk fel tetsz˝olegesen gyakorlatban csak olyan szabályokkal foglalkoznak, amelyben egy alapfeltétel negáci´ oja, a feltételek és kapcsolatai szerepelnek a szabályok feltételrészében diszjunkt´ıv normál formulák állnak, ha az azonos k¨ ovetkezményrésszel rendelkez˝o szabályokból egy szabályt kész´ıt¨ unk, u ´h. a feltételek vagy kapcsolatát képezz¨ uk minden formula át´ırhat´ o diszjunkt´ıv normál formulává a dupla negáció eliminálásával, a de Morgan és a disztributivitás szabály alkalmazásával

´ Illy´ es Agota




Második defin´ıció

Az R : φ(A) → Y = y szabályra illeszkedik a t objektum, ha a feltételrész attrib´ utumváltoz´ oiba a t megfelel˝ o értékeit helyettes´ıtj¨ uk, akkor igaz értéket kapunk. Ha a szabály következménye is igaz, az objektumon ⇒ a szabály fennáll vagy igaz az objektumon

´ Illy´ es Agota




Harmadik defin´ıció

Az R : φ(A) → Y = y lefedi a T objektumhalmazt, ha minden objektum illeszkedik a szabályra. Adott τ tan´ıtóhalmaz esetén az R által fedett tan´ıt´ opontok halmazát coverτ (R)-rel jelölj¨ uk. az R szabály helyesen fedi a T halmazt, ha R fedi T-t és a halmaz összes objektuma az y osztályba tartozik a coverτ+ (R) az R által helyesen fedett pontok halmaza a coverτ− (R) az R által helytelen¨ ul fedett pontok halmaza

´ Illy´ es Agota




Negyedik defin´ıció

Az R szabály relat´ıv fedési hibája megegyezik a rosszul osztályozott pontok számának a tan´ıt´ opontokhoz vett arányával, tehát:

Er τ (R) =

´ Illy´ es Agota

coverτ− (R) coverτ (R)




Döntési szabályok kifejez˝oereje

T´ıpusai: Ítéletkalkulus-alap´ u d¨ ontési szabályok a feltételrészében predikátumok logikai kapcsolata áll (´ıtéletkalkulus egy formulája, amelyben nem szerepelnek a → és ↔ m˝ uveleti jelek) -minden predikátum egy attrib´ utumra vonatkozik -ha az attrib´ utum kateg´ oria t´ıpus´ u ⇒ A = a vagy a ∈ A alak´ u a feltétel, ahol a-konstans A -A-az A értékkészletének egy részhalmaza

´ Illy´ es Agota





-sorrend vagy intervallum t´ıpus´ u attrib´ utum esetén emellett A ≤ a 0 00 és a ≤ A ≤ a szabályokat is megenged¨ unk -az algoritmusok többsége csak olyan egyszer˝ u formulákat tud el˝oáll´ıtani, amelyekben a predikátumok és kapcsolatai állnak (pl. ´ ≤ 170 AND HAJSZÍN = barna AND SZEMSZÍNE ∈ MAGASSAG {kék, zöld} -a csak ´ıtéletkalkulus alap´ u szabályokat tartalmaz´ o döntési szabályokat/fákat univariate (egyváltoz´ os) d¨ ontési szabályoknak/fáknak h´ıvjuk.

´ Illy´ es Agota




Döntési szabályok kifejez˝oereje Reláció-alap´ u döntési szabályok -ha halmazelméleti szemmel nézz¨ uk a predikátumokat, akkor az attrib´ utumokra vonatkoz´ o predikátumot bináris relációnak nevezz¨ uk, amelynek egyik tagja egy változ´ o, másik pedig egy konstans -a reláció alap´ u d¨ ontési szabályokban a második tag attrib´ utumváltozó is lehet -itt pl a hajsz´ın = szemsz´ın vagy szélesség < magasság megengedett feltételek -a reláció-alap´ u szabályokat tartalmaz´ o d¨ ontési szabályokat/fákat multivariate (t¨ obbváltoz´ os) döntési szabályoknak/fáknak h´ıvjuk ´ Illy´ es Agota





egyes esetekben a reláci´ os szabály helyettes´ıthet˝o sok egyváltozós szabálypárral Példa: hajsz´ın = barna AND szemsz´ın = barna, hajsz´ın = kék AND szemsz´ın = kék, hajsz´ın = mályva AND szemsz´ın = mályva

´ Illy´ es Agota





Indukt´ıv logikai programozás Példa: ép´ıt˝oelemek egy kupaca legyen egy torony -a legfels˝o eleme a cs´ ucs, a maradék elemre pedig a maradék attrib´ utummal hivatkozunk -ha a szélesség < magasság, akkor ALAK = álló ⇒ szélesség(ép´ıt˝oelem) < magasság(ép´ıt˝ oelem) → álló(ép´ıt˝oelem)

´ Illy´ es Agota





-s˝ot tovább is bonyol´ıthatjuk a szabályt Példa: szélesség(torony.cs´ ucs) < magasság(torony.cs´ ucs) AND álló(torony.maradék) → áll´ o(torony) -ez a rekurz´ıv kifejezés, amely szerint egy torony akkor álló, amikor a legfels˝o elem magassága nagyobb mint szélessége -a rekurziót le kell zárni: torony = u ¨res → áll´ o(torony) -a rekurz´ıv szabályoknak nagyobb a kifejez˝ oerej¨ uk, mint a reláció-alap´ u döntési szabályhalmazoknak -a rekurz´ıv szabályokat is tartalmaz´ o szabályhalmazt logikai programnak nevezz¨ uk, ezekkel továbbiakban nem foglalkozunk.

´ Illy´ es Agota




Szabályhalmazok és szabálysorozatok

halmazok esetén a szabályok f¨ uggetlenek egymástól a szabályhalmaz triviális, ha tetsz˝ oleges objektum csak egy szabályra illeszkedik sorozat esetében egy u ´j objektum osztályattrib´ utumának jóslásánál egyesével sorra vessz¨ uk a szabályokat egészen addig, am´ıg olyat találunk, amelyre illeszkedik az objektum ennek a szabálynak a k¨ ovetkezményrésze adja meg az osztályattrib´ utum értékét

´ Illy´ es Agota




egy szabályrendszer (halmaz vagy sorozat) teljes, ha tetsz˝oleges objektum illeszthet˝ o egy szabályra sorozatok esetében a teljességet általában az utolsó, u ń. alapértelmezett szabály biztos´ıtja, amely feltételrésze u ¨res ⇒ minden objektum illeszkedik rá a szabályok közötti sorrend (prioritás) biztos´ıtásával ker¨ ulj¨ uk el azt, hogy ha egy objektumra t¨ obb , k¨ ul¨ onböz˝o következményrésszel rendelkez˝ o szabály illeszkedik a prioritás nem minden esetben kedvez˝ o! szabályhalmaz esetében minden szabály tudásunk egy töredékét rögz´ıti sorozatok esetén egy szabályt nem emelhet¨ unk ki a környezetéb˝ol ´ Illy´ es Agota




Szabályhalmazok és szabálysorozatok

a szabályok sorozata át´ırhat´ o szabályok halmazába u ´gy, hogy egyesével vessz¨ uk a szabályokat az els˝ ot˝ ol és a feltételrészhez hozzáf˝ozz¨ uk az el˝ otte áll´ o szabályok feltételrész negáltjainak kapcsolatát

´ Illy´ es Agota




Döntési táblázatok

minden oszlopa egy attrib´ utumnak felel meg, az utolsó oszlop viszont az osztályattrib´ utumnak az A attrib´ utumhoz tartoz´ o oszlopban az A értékére vonatkozó feltétel szerepelhet, leggyakrabban A=a alakban (´ıtéletkalkulus-alap´ u d¨ ontési szabály) a táblázat egy sora egy d¨ ontési szabályt r¨ ogz´ıt ha az attrib´ utumok a sorban szerepl˝ o feltételeket kielég´ıtik, akkor az osztályattrib´ utum értéke megegyezik a sor utolsó elemének értékével

´ Illy´ es Agota




Döntési táblázat

id˝ojárás napos napos bor´ us es˝os es˝os es˝os es˝os

h˝omérséklet meleg meleg meleg enyhe hideg hideg hideg

páratartalom magas magas magas magas magas magas magas

´ Illy´ es Agota

szél nincs van nincs nincs nincs nincs nincs

játékid˝o nem nem nem igen igen igen igen




Döntési táblázat egy döntési táblázat tulajdonképpen egy speciális döntési szabályhalmaz, amelyre igaz, hogy a feltételrészben pontosan ugyanazok az attrib´ utumok szerepelnek kérdések tisztázása: 1

az attrib´ utumok melyik részhalmazát érdemes kiválasztani? ideális eset, ha minden részhalmazt ki tudnánk értékelni és kiválasztani azt, amelyik a legkisebb hibát(rosszul osztályozott tan´ıt´ opontok száma) adja a gyakorlatban az attrib´ utumok száma nagy, ezért az összes részhalmaz kipr´ obálása sok id˝ o

2

hogyan kezelj¨ uk a folytonos attrib´ utumkat? az el˝ oz˝ o példában a h˝ omérsékletet diszkretizáltuk ideális az lenne, ha a folytonos attrib´ utumokat az algoritmus automatikusan tudná diszkretizálni ´ Illy´ es Agota




Az 1R algoritmus

-kiválaszt egy attrib´ utumot és az osztályozásban kizárólag ezt használja -annyi szabályt áll´ıt el˝ o, ahány értéket felvesz a kiválasztott attrib´ utum a tan´ıtóhalmazban -az A=a → Y=c szabály k¨ ovetkezményrésszében szerepl˝o c osztály a legtöbbször elofordul´ o osztály az A attrib´ utumában a értéket felvev˝o tan´ıtóminták k¨ oz¨ ul -nyilvánvaló, hogy 1R egyértelm˝ u szabályhalmazt áll´ıt el˝o

´ Illy´ es Agota




-minden attrib´ utumértékhez meg tudjuk határozni a rosszul osztályozott tan´ıtópontok számát -osztályozó attrib´ utumnak választjuk a legkevesebb rosszul osztályozott tan´ıtópontot ad´ o attrib´ utumot -hiányzó attrib´ utumokat u ´gy kezel¨ unk, mintha lenne az attrib´ utumnak egy k¨ ul¨ onleges, a t¨ obbit˝ ol eltér˝ o értéke -sorrend és intervallum t´ıpus´ u attrib´ utumnál A≤ a, a’≤ A ≤ a” és a”’≤ A t´ıpus´ u szabályokat célszer˝ u el˝ oáll´ıtani -ehhez csoportos´ıtjuk az egymást k¨ ovet˝ o értékeket , u ´h homogén csoportok legyenek az osztályérték szempontjáb´ ol (vagyis diszkretizáljuk)

´ Illy´ es Agota




-az 1R módszer nem t´ ul bonyolult és egyes esetekben nagyon is pontos -van 0R osztályzó attrib´ utum is, amely nem használ fel egyetlen attrib´ utumot sem -ebben az esetben az osztályoz´ o egy feltétel nélk¨ uli szabály, amely ´ıtéletrészében a leggyakoribb osztály áll

´ Illy´ es Agota



Döntési fák alapötlet: bonyolult ¨ osszef¨ uggések egyszer˝ u döntések sorozatára vezet vissza. a fa gyökeréeb˝ol kiindulva haladunk lefele a csomópontokon kereszt¨ ul és a csom´ opontokban feltett kérdésekre adott válaszoknak megfelel˝ oen addig lépked¨ unk, am´ıg egy levélbe nem ér¨ unk. a döntést a levél cimkéje határozza meg. a döntési fák nagy el˝ onye, hogy automatikusan felismerik a lényegtelen változ´ okat. Ha egy változ´ or´ ol nem nyerhet˝o információ az adott változ´ or´ ol, akkor azt nem is tesztelik. azért el˝onyös ez a tulajdonság, mert ´ıgy a fák teljes´ıtménye zaj jelenlétében sem romlik, a problémamegértés¨ unket is nagyban seg´ıti, ha megtudjuk, hogy mely változók fontosak, és melyek nem. ´ Illy´ es Agota



a legfontosabb változ´ okat a fa a gy¨ okér k¨ ozelében teszteli. Másik el˝ony, hogy a d¨ ontési fák nagyméret˝ u adathalmazokra is hatékonyan felép´ıthet˝ ok. a döntési fák egyik fontos tulajdonsága, hogy egy csomópontnak mennyi gyereke lehet. egy olyan fa, amely pontjainak kett˝ onél t¨ obb gyermeke is lehet, mindig ábrázolhat´ o bináris fával. a legtöbb algoritmus ezért csak bináris fát tud el˝oáll´ıtani.

´ Illy´ es Agota



Döntési fa hitelb´ırálatra (Bodon Ferenc)

´ Illy´ es Agota



Döntési fák és döntési szabályok

a döntési fák tulajdonsága, hogy a gy¨ okérb˝ ol egy levélbe vezet˝o u ´t mentén a feltételeket ¨ osszeolvasva könnyen értelmezhet˝o szabályokat kapunk a d¨ ontés meghozatalára, illetve egy laikus számára is érthet˝ o m´ odon azt is meg tudjuk magyarázni, hogy a fa miért pont az adott d¨ ontést hozta. a döntési fákból nyert d¨ ontési szabályhalmazok egyértelm˝ uek. Ez triviális, hiszen tetsz˝ oleges objektumot a fa egyértelm˝ uen besorol valamelyik levélbe, a levélhez tartoz´ o szabályra az objektum illeszkedik, a t¨ obbi nem.

´ Illy´ es Agota



Vannak olyan döntési feladatok, amikor a fák t´ ul bonyolult szabályokat áll´ıtanak el˝ o, pl.: négy bináris magyaráz´ o attrib´ utum: A, B, C , D az osztályattrib´ utum is bináris és Y -nal jel¨ olj¨ uk a döntési szabálysorozat 3 szabályb´ ol áll: A = 1 AND B = 1 → Y = 1 C = 1 AND D = 1 → Y = 1 Y =0

Ekkor a szabálysorozat teljes, hisz az utols´ o, feltétel nélk¨ uli szabályra minden objektum illeszkedik. A fenti példában a fa az osztályozás bonyolultabb le´ırását adja, mint a szabálysorozat.

´ Illy´ es Agota



´ Illy´ es Agota



a sárga és kék részfák izomorfak a részfa által adott osztályozást egyszer˝ uen tudjuk kezelni a döntési szabálysorozattal, de a részfák ismételt felrajzolása nem elker¨ ulhet˝o d¨ ontési fák esetében. ez egy alapprobléma, neve ismétl˝ od˝ o részfa probléma (replicated subtree problem)

´ Illy´ es Agota



Döntési fa el˝oáll´ıtása a fát a tan´ıtó adatbázisb´ ol rekurz´ıvan áll´ıtjuk el˝o kiindulunk a teljes adatbázisb´ ol és egy olyan kérdést keres¨ unk, aminek seg´ıtségével a teljes tanul´ ohalmaz j´ ol szétvágható egy szétvágás jó, ha a magyarázand´ o változ´ o eloszlása a keletkezett részekben kevésbé sz´ ort, kevésbé bizonytalan, mint a szétvágás el˝ott egyes algoritmusban a keletkez˝ o részek kb egyformák a részekre rekurz´ıvan alkalmazzuk a fenti eljárást egy csomópont leszármazottjaiban nem vizsgáljuk többé azt az attributumot, ami alapján szétosztjuk a mintát

´ Illy´ es Agota



Ismétl˝od˝o részfaprobléma

´ Illy´ es Agota



A rekurziót megszak´ıtjuk, ha: nincs több attrib´ utum, ami alapján az elemeket továbboszthatnánk a csomóponthoz tartoz´ o osztály ekkor az lesz, amelyikhez a legtöbb tan´ıtópont tartozik az adott mélység elért egy megadott korlátot nincs olyan vágás, amely jav´ıtani tudna az aktuális osztályon Minden levélhez hozzá kell rendeln¨ unk a magyarázandó változó egy értékét, a döntést Ez általában az u ń. többségi szavazás elve alapján történik, az lesz a döntés, amely kateg´ oriában a legt¨ obb tan´ıt´ o minta tartozik

´ Illy´ es Agota



Három f˝o algoritmust eml´ıthet¨ unk meg a d¨ ontési fák el˝oáll´ıtására: Interative Dichotomizer 3 (ID 3) család, jelenlegi változat C 5.0” Classification and Regression Trees (ART 5 ) Chi-squared Automatic Interaction Detection(CHAID)

´ Illy´ es Agota



ID3 egyik legrégibb és legismertebb algoritmus J. Ross Quinlan fejlesztette ki az algoritmust, ami döntési fákat hoz létre (”tanul meg”) a számára megadott ”tanuló” példák alapján ezeket a fákat a gy¨ okért˝ ol a levelek felé haladva ép´ıti fel a valós életben jó néhány ilyen problémával találkozhatunk, ezek valamilyen osztályozási funkci´ ot látnak el (pl. betegeket sorolnak kategóriákba a t¨ uneteik alapján) alapötlet: kiválasztunk egy attrib´ utumot, amelynek az értékére k´ıváncsiak vagyunk → ez lesz a célf¨ uggvény ezek után feltessz¨ uk a k¨ ovetkez˝ o kérdést: melyik az a további attrib´ utum, amely a legjobban ”meghatározza” a célf¨ uggvény kimeneti értékét a példák alapján ´ Illy´ es Agota



ez lesz a fa gyökere és ezen attrib´ utumon lehetséges értékei lesznek az ágak a következ˝o szinten ugyanez a kérdés, stb. a tesztattrib´ utum kiválasztása az entr´ opia cs¨ okkenését alkalmazza ha Y egy l lehetséges értéket pi (i = 1, ..., l) valósz´ın˝ uséggel felvev˝o valósz´ın˝ uségi változ´ o, akkor Y Shanner-f´ e le entr´ opiáján Pl a H(Y ) = H(p1 , . . . , pk ) = − j=1 pj log2 pj az entrópia az informáci´ o-elmélet k¨ ozponti fogalma

´ Illy´ es Agota



Feltételek a csomópontokban

az ID3 algoritmus kiválasztja a minimális feltételes entrópiával rendelkez˝o attrib´ utumot és annyi gyerekcsom´ opont jön létre, amennyi értéket felvesz az attrib´ utum leállási feltétel: egy ágat nem vágunk tovább, ha nincs több vizsgálható, azaz a fa maximális mélysége = az attrib´ utumok számával az ID3 algoritmus nem feltétlen¨ ul bináris fát áll´ıt el˝o ha bináris fa el˝oáll´ıtása a cél, akkor a magyarázó X attrib´ utum t´ıpusától f¨ ugg˝oen kétféle feltételt szokás létrehozni:

´ Illy´ es Agota



intervallum t´ıpus´ u attrib´ utumoknál a c két szomszédos tan´ıtóérték átlaga -kategória t´ıpus´ u esetében X ⊆ K, ahol K az X értékkészletének egy részhalmaza az els˝o esetben X felvett értékeivel lineáris arányos feltételes entrópiát kell szám´ıtani, a másodikban pedig a felvett értékek számával exponenciális szám´ ut (ugyanis egy n elem˝ u n halmaznak 2 darab részhalmaza van) ha egy gyökérb˝ol levélig vezet˝ ou ´ton egy attrib´ utumot többször is vizsgálunk (k¨ ul¨ onb¨ oz˝ o konstansokkal), akkor ebben az esetben kapunk j´ o bináris d¨ ontési fát (a fa mélysége az attrib´ utumok számánál j´ oval nagyobb is lehet)

´ Illy´ es Agota



Döntési fák nyesése -célja, hogy a felép´ıtett fá kicsit egyszer˝ us´ıts¨ uk -feltételezz¨ uk, hogy a fa megtanult olyan esetiségeket is, amelyek csak a tan´ıtóhalmazra jellemz˝ o -a nyesést egy k¨ ulönös teszthalmazon szokás elvégezni -el˝onyesés: egy intelligens STOP feltétel -utónyesés: nagy fát n¨ oveszt¨ unk, majd elkezdj¨ uk azt zsugor´ıtani -a két legismertebb ut´ onyesési eljárás: a részfa helyettes´ıtés(subtree replacement): egy bels˝o pontból induló, minden u ´tjában levélig ér˝ o fát egyetlen levéllel helyettes´ıtj¨ uk a részgráf felh´ uzása(subtree raising)

´ Illy´ es Agota



Döntési fák ábrázolása -a döntési fák el˝oáll´ıtása után két fontos kérdés szokott megfogalmazódni: melyek azok a szabályok, amelyek sok tan´ıt´ opontra érvényesek? (mennyire jelent˝ os az adott levél?) a levelek mennyire j´ ol osztályoznak? (mennyire jó, mennyire igaz a levélhez tartoz´ o szabály?) -elterjedt módszer, hogy minden levelet egy k¨ orcikkely reprezentál -a körcikkely nagysága arányos a levélhez tartoz´ o tan´ıtópontokkal, a sz´ıne pedig a levélhez tartoz´ o szabály j´ oságát adja meg pl. minél sötétebb a sz´ın, annál rosszabb az osztályozás aránya. -hanyag döntési fák: amelyekben az azonos szinten elhelyezked˝o pontokban ugyanazt az attrib´ utumot vizsgáljuk ´ Illy´ es Agota



Bayesi hálózatok Elvek, amire ép¨ ulnek a maximum likelihood a Bayes-tétel A Bayes-tétel szerint meghatározhat´ o a klasszifikációs szabály: Jelölj¨ uk Yi -vel azt, amikor a klasszifikáland´ o eset az i-edik osztályba tartozik (Y = yi ) Az elemek megfigyelhet˝o tulajdonságait az X vektor ´ırja le. Az egyszer˝ uség kedvéért a tévedés költsége legyen minden esetben azonos. Ekkor egy ismeretlen, X tulajdonság´ u példányt abba az osztályba (i) érdemes (optimális) sorolni, amelyikre P(Yi |X ) maximális. A Bayes-szabály alapján: P(X |Yi )P(Yi ) ,Yi ) P(Yi |X ) = P(X P(X ) = P(X ) ´ Illy´ es Agota



P(Yi |X ) =

P(X ,Yi ) P(X )

=

P(X |Yi )P(Yi ) P(X )

Yi , amikor a klasszifikáland´ o eset az i-edik osztályba tartozik X vektor adja az elemek megfigyelhet˝ o tulajdonságait a tévedés költsége legyen minden esetben azonos (egyszer˝ uség) egy X tulajdonság´ u példányt abba az osztályba érdemes (optimális) sorolni, amelyire P(Yi |X ) maximális P(X ) minden i-re konstans → elegend˝ o P(X |Yi )P(Yi )-t maximalizálni P(Yi )-t meg tudjuk határozni csak a P(X |Yi )-t kell meghatározni

´ Illy´ es Agota



Na´ıv Bayes hálók a l(2k − 1) darab megbecs¨ ulend˝ o paraméter száma l ∗ k-ra csökken Legyen X,Y és Z három val´ osz´ın˝ uségi változ´ o. Az X feltételesen f¨ uggetlen Y-t´ ol adott Z esetén, ha P(X = xi |Y = yj , Z = zk ) = P(X = xi |Z = zk ) minden lehetséges xi , yj , zk hármasra a naiv Bayes-hálóban egy osztályon bel¨ ul az attrib´ utumok feltételesen f¨ uggetlenek egymást´ ol ekkor P(X |Y ) val´ osz´ın˝ uség kifejezhet˝ o a P(Xj |Y ) valósz´ın˝ uségek szorzataként: P(X1 , X2 |Yi ) = P(X1 |X2 , Yi )P(X2 |Yi ) = P(X1 |Yi )P(X2 |Yi ) magyarázó változ´ o eset´ Qekn: P((X1 , X2 , . . . , Xk ) = (x1 , x2 , . . . , xk )|Yi ) = j=1 P(X1 |Yi )P(X2 |Yi ) ´ Illy´ es Agota



Szakirodalom

[1] Bodon Ferenc. Adatb´ any´ aszati algoritmusok. BME, Feb. 2010 [2]http://www.cs.bme.hu/nagyadat/konyvek.html

´ Illy´ es Agota



K¨ osz¨ on¨ om a figyelmet!

´ Illy´ es Agota


BME, Budapest. BME, Budapest, 2012.március 1

Recommend Documents