Döntési fák (Klasszifikációs és regressziós fák: (Classification And Regression Trees: CART ))
• Rekurzív osztályozó módszer, • Klasszifikációs és regressziós fák • folytonos, kategóriás, illetve túlélés adatok (célváltozó) prediktálására. Tudásunk struktúrálása és bemutatása úgy, hogy azt a kevésbé szakértő felhasználók is használhassák. Magyarázó változók: kategóriás és folytonos Általános szabály: A megfigyeléseinket két részre bontjuk egy magyarázó változó alapján (gyökér), majd a létrejött részhalmazokat tovább bontjuk valamely további (vagy ugyanazon) magyarázó változó alapján. Részletesebben: Első lépésként kiválasztunk egy lehetséges
q
db
X 1 ,X 2 ,. .. ,X q
X
j
kovariánst a
kovariáns közül, és megbecsülünk egy
vágási pontot, amely a célváltozó értékeit két részre osztja. Rendezett magyarázó változó esetén a vágási pont egy olyan szám, amely alatti vagy vele egyenlő értékekhez tartozó megfigyelések lesznek az egyik, a felette lévő értékekhez tartozó megfigyelések pedig a másik csoportban.
Nominális változó esetén a lehetséges kategóriákat bontjuk két részre. Vágáskor a cél, hogy a homogenitás maximális legyen a csoporton belül a célváltozó alapján. Ezt az eljárást rekurzív módon megismételjük az így létrejött két megfigyelés csoportra. A rekurzió akkor áll le, ha valamilyen leállási kritérium teljesül. Ha a fa felépült, a fa végpontjait (leveleket) egyszerű statisztikákkal jellemezzük attól függően, hogy milyen típusú a célváltozó. Folytonos célváltozó esetén az átlagot (vagy mediánt), nominális változó esetén a kategóriák arányát adhatjuk meg. A megfigyelések becsült értéke egyszerűen ennek a statisztikának az értéke. Az általunk alkalmazott party [1] csomag ctree() függvénye esetén a vágási pontokat egy a célváltozó és a kovariánsok közötti asszociációs mérték alapján határozzuk meg. Ha már nem találunk szignifikáns összefüggést a célváltozó és a kovariánsok között, a rekurzió leáll. A rekurziót egyéb kritériumok alapján is leállíthatjuk: a fa mérete, a leveleken és a csomópontokban lévő megfigyelések száma alapján. A szignifikancia szint is szükség szerint állítható.
Döntési fák jó tulajdonságai például, hogy automatikusan felismerik a lényeges változókat. Ezeket a gyökér közelében, míg
a kevésbé fontosakat a levelekhez közel tesztelik. Előfordulhat, hogy egyes magyarázó változók nem jelennek meg a fában, hiszen nem befolyásolják a döntést. Ezeket irrelevánsnak tekintjük. A gyakorlatban sokszor használunk bináris döntési fákat, melyek sajátossága, hogy minden csomópontnak két ága van. Ilyen a klasszifikációs és regressziós fák módszere is. Mivel tetszőleges nem bináris döntési fa könnyedén átalakítható binárissá, így sok algoritmus csak bináris döntési fát tud előállítani. A
CART
módszer
egyik
fontos
tulajdonsága,
hogy
a
klasszifikációs és regressziós fák szerkezete invariáns a független változók monoton transzformációjára. Automatikusan felismeri az interakciókat és a nemlinearitás sem probléma. Amint a klasszifikációs vagy a regressziós fa elkészült, alkalmassá válik új adatok klasszifikálására. A fa ágai mentén, minden egyes új megfigyelést a döntési fa megfelelő leveléhez kapcsolhatunk.
Véletlen erdők
A véletlen erdők (random forest) egy olyan rekurzív osztályozó módszer, ami különösen alkalmas az ún. kis n nagy p problémák esetén, azaz olyankor, amikor kicsi a minta, de sok a változó (Strobl et al. 2009b: 339). Klasszifikációs és regressziós fák (döntési fák) egy olyan halmaza, amelyet az adatok egy véletlen részhalmazára építünk úgy, hogy a fa minden vágási pontján a változók egy véletlen részhalmazából választunk. Ilyen módon a véletlen erdők módszere jobban képes az egyes változók szerepének vizsgálatára, mivel az olyan egyszerűbb modellek esetén, amelyek az összes változót egyszerre vizsgálják, a nagyobb hatású változók elnyomhatják a kisebb hatásúak szerepét. Továbbá kimutatták, hogy a döntési fák együttese jobban képes prediktálni, mint az egyes fák.
A módszer használatával becsülhető az egyes változók fontossága is oly módon, hogy a célváltozó értékeit véletlenszerűen permutálásával méri a különbséget a permutálás előtti és utáni becslési pontosság között. Ha a pontosság kicsit változik, akkor a változónak nincs komoly szerepe, ha nagyot változik, akkor igen. Ezeket a különbségeket kiátlagolva kapjuk meg az egyes változók fontosságát (variable importance measure).
Referenciák: • R Development Core Team (2010). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/. • Torsten Hothorn, Kurt Hornik and Achim Zeileis (2006). Unbiased Recursive Partitioning: A Conditional Inference Framework. Journal of Computational and Graphical Statistics, 15(3), 651--674. • Brian S. Everitt and Torsten Hothorn (2010). HSAUR: A Handbook of Statistical Analyses Using R.Chapman & Hall/CRC • Strobl, Carolin; Anne-Laure Boulesteix; Thomas Kneib; Thomas Augustin; and Achim Zeileis. 2008. Conditional variable importance for random forests. BMC Bioinformatics. 9: 307. • Strobl, Carolin; Torsten Hothorn; and Achim Zeileis. 2009a. Party on! A new, conditional variableimportance measure for random forests available in party package. The R Journal. 1/2: 14-17. • Strobl, Carolin; James Malley; and Gerhard Tutz. 2009b. An Introduction to Recursive Partitioning: Rational, Application, and Characteristics of Classification and Regression Trees, Bagging, and Random Forests. Psychological Methods. 14(4): 323-348. • Strobl, Carolin; James Malley; and Gerhard Tutz. 2009c. Supplement to ‘An Introduction to Recursive Partitioning: Rational, Application, and Characteristics of Classification and Regression Trees, Bagging, and Random Forests.
accessed November 2010. • Shih, S. (2011) : Random Forests for Classification Trees and Categorical Dependent
Variables:
an
informal
Quick
Start
http://www.stanford.edu/~stephsus/R-randomforest-guide.pdf
R
Guide