Dr. Abonyi János (szerk.): Adatbányászat - a hatékonyság eszköze
{simplecaddy code=1004}
Könyvünk az adatbányászat tevékenységének lépéseit részletesen bemutatva kívánja megismertetni az olvasót, azzal hogy milyen jellegű gazdasági, mérnöki, illetve tudományos problémák megoldásában alkalmazható az adatbányászat, mik az adatbányászatnak, mint tevékenységnek melyek a fő lépései és eszközei, miként lehet eldönteni, hogy egy adott feladat megoldásához milyen adatbányászati eszközt, illetve algoritmust kell alkalmazni, melyek ezeknek az algoritmusoknak a fő paraméterei, hogyan célszerű ezeket megválasztani, illetve a kapott eredmények miként értelmezhetők, milyen speciális megoldásokat követelnek az időbeli változásokat vizsgáló, illetve szövegek elemzését megcélzó feladatok, végül az üzleti életben történő speciális alkalmazások, pl. ügyfélszolgálat menedzsment milyen általánosítható kérdéseket vetnek fel, s e kérdésekre milyen válaszok adhatók. A célkitűzések jól mutatják, hogy e könyv az adatbányászati alkalmazásokat bevezetni, alkalmazni, illetve fejleszteni szándékozó gyakorló gazdasági szakemberek, mérnökök, informatikusok, és a téma iránt érdeklődő egyetemi hallgatók, illetve kutatók részére íródott. A gyakorlatias megközelítésmódot számtalan példa, esettanulmány, alkalmazási sikertörténet ismertetése biztosítja, melyek összeállítása során a magyar informatikai piac üzleti intelligenciával foglalkozó szegmensének sajátosságait is figyelembe vettük. Ezek az információk különösen azok számára hasznosak, akik adattárházat és annak kiaknázására alkalmas rendszert kívánnak kiépíteni. Reményeink szerint az érdeklődő olvasók már a könyv olvasása közben képesek lesznek annak eldöntésére, hogy az őket körbevevő adatok elemzésével miként juthatnak hasznos információkhoz, illetve e "tudásfeltárási'" folyamathoz milyen eszközökre lesz szükségük, és képesek lesznek a könyvben ismertetett eszközökkel megkezdeni ezen munkát. Ezen kezdő lépéseket közismert eszközökön (Microsoft EXCEL, Microsoft ACCESS} és MySQL adatbáziskezelő alapuló példák támogatják. Természetesen egy professzionális felhasználó sokkal többre vágyik mint egymástól elszigetelt demonstrációs céllal készült apró programok sorozata. Munkánk ilyen szempontból is úttörő jellegű, ugyanis ez az első olyan magyar nyelven megjelenő kiadvány, amely a rendkívül hatékony, mindenki számára ingyenesen elérhető, nyitott forráskódú WEKA adatbányászati programcsomagra is támaszkodva ismerteti a tudásfeltárási folyamat lépéseit, lehetőséget teremtve ezáltal az elsajátított ismeretek közvetlen gyakorlati alkalmazására akár Linux, akár Windows környezetben. Azokat az olvasókat, akik a módszerek tudományos szintű megismerésére és fejlesztésére törekednek, könnyen értelmezhető algoritmus leírásokkal, számtalan irodalmi hivatkozás feltüntetésével és MATLAB programokkal kívánjuk segíteni. A könyv jól strukturált felépítésével is megpróbálja kielégíteni az eltérő igényeket. Az első fejezet minden érdeklődő számára hasznos általános bevezető, illetve módszertani ismereteket
1/7
Dr. Abonyi János (szerk.): Adatbányászat - a hatékonyság eszköze
tartalmaz. A második fejezet az adattárházak létrehozásának és alkalmazásának kérdéseivel foglalkozik. Az ezt követő fejezetek azok számára hasznosak, akik az adatbányászati technikák részleteire kíváncsiak. A kötet egy, a különböző üzleti alkalmazások jellegzetességeit tárgyaló résszel zárul. Több mint 150 ábra és csaknem 50 táblázat segíti a leírtak jobb megértését. A demonstrációs programok és a kapcsolódó oktatási anyagok (PowerPoint bemutatók, példák, feladat leírások, ajánlott irodalom) a könyv honlapjáról tölthetők le: http://www.fmt.vein.hu/adatbanyaszat Ezek a segédletek teszik alkalmassá a kötetet, hogy az a felsőoktatásban jegyzetként, illetve ajánlott irodalomként szolgálhasson. E honlapról a könyvre szorosan építő oktatási tematikák is letölthetők, ugyanis a könyv szerkesztője a Veszprémi Egyetem Műszaki Informatika, Gazdasági Informatikus, Műszaki Menedzser, Mechatronika, és Gépész- és Vegyészmérnök B.Sc. és M.Sc. szakjain tárgyfelelős oktató. A szerzők A könyv az Adattárházak és kiaknázásuk egyetemi- és az Adatmodellezés doktori kurzusok négy évre visszamenő oktatási tapasztalata alapján született. Az összegyűjtött irodalom, illetve oktatási anyag tankönyvvé alakításának oroszlánrészét e kurzusok legtehetségesebb hallgatói végezték: Holenda Balázs: Adattárházak és kiaknázásuk Mátyus Péter: Adatok feltáró jellegű elemzése és megjelenítése Tobak Tamás: Osztályozási feladatok Pach Ferenc Péter: Gyakori elemhalmazok és asszociációs szabályok feltárása Kenesei Tamás és Madár János: Regressziós technikák Bankó Zoltán: Idősorok elemzése Túróczi Béla: Ügyfélkapcsolat menedzsment. A szakmai megalapozottság érdekében tapasztalt oktató és kutató kollegák bevonását is megkövetelte az adatbányászat rendkívül széles eszköztárának ismertetése: dr. Fogarassyné Vathy Ágnes: Csoportosítási algoritmusok, Veszprémi Egyetem, Matematikai és Számítástechnikai Tanszék dr. Gyenesei Attila: Gyakori elemhalmazok és asszociációs szabályok feltárása, Department of Knowledge and Data Analysis, Unilever Research Vlaardingen, Hollandia dr. Tikk Domonkos: Szövegbányászat, Budapesti Műszaki és Gazdaságtudományi Egyetem (BME), Távközlési és Médiainformatikai Tanszék. A gyakorlatias megközelítésmód hitelessége a könyv írásában és lektorálásában közreműködő gyakorló adatbányász specialista szakembereknek köszönhető: Fekete Zoltán: Az Oracle Hungary senior üzleti intelligencia és adattárház-szakértője, az Adattárháza és kiaknázásuk, illetve az Ügyfélkapcsolat menedzsment (operatív és analitikus CRM) fejezetek lektorálása Halász István, Robotka Zsolt és Rovnyai János: DSS Consulting Kft, esettanulmányok készítése. Körmendi György és dr. Cseh Zoltán: SPSS Hungary Kft., az adatbányászat módszertanának ismertetése. A könyv tartalomjegyzéke 1. Bevezetés 1.1. Miért kell menedzselni a tudást, illetve az adatokat? 1.2. Adatbányászat, mint a tudásmenedzsment eszköze 1.2.1. Az adatbányászat definíciója
2/7
Dr. Abonyi János (szerk.): Adatbányászat - a hatékonyság eszköze
1.2.2. Az adatbányászat mint tanulás 1.2.3. Adatbányászati technikák 1.3. Adatbányászat módszertana 1.3.1. A tudásfeltárás folyamata 1.3.2. A módszertanok kialakulása 1.3.3. Az üzleti cél definiálása és értelmezése 1.3.4. A szükséges illetve rendelkezésre álló adatok megismerése 1.3.5. Adatkezelés, adattranszformációk végrehajtása 1.3.6. Adatbányászati modellek alkotása 1.3.7. Az eredmények üzleti szempontú kiértékelése 1.3.8. Az adatbányászati eredmények üzleti alkalmazása 1.3.9. Ami a módszertanon túl van � az adatbányászat �csupán� eszköz 1.4. Adatelemző eszközök 1.4.1. Általános áttekintés 1.4.2. WEKA 1.4.3. Excel és alkalmazásai 1.4.4. Alkalmazott adatsorok 2. Adattárházak és kiaknázásuk 2.1. Az adattárház fogalma 2.1.1. Hogy kerül az adat az adattárházba? 2.1.2. Adatstruktúrák 2.2. Adattárház és heterogén adatbázisok 2.2.1. Az OLAP kritériumai 2.2.2. Az OLTP és az OLAP 2.2.3. Adattárházak alkalmazása 2.3. A többdimenziós adatmodell 2.3.1. A dimenziók hierarchiaszintjei 2.3.2. Műveletek a többdimenziós adatmodellen 2.3.3. Hatékony adatkocka-kezelés 2.3.4. A csillagséma modell 2.3.5. A hópehelyséma modell 2.3.6. A galaxisséma modell 2.4. Gyakorlati példa: OLAP-kocka létrehozása MS Excelben 2.4.1. Adatelérés ODBC használatával 2.4.2. Az OLAP-kocka létrehozása 2.4.3. OLAP-műveletek 2.5. Adattárházak tervezése 2.5.1. Az architektúra megválasztása 2.5.2. Implementációs modellek 2.5.3. Implementációs módszer kiválasztása 2.5.4. Adattárház létrehozásának folyamata 3. Adatok feltáró jellegű elemzése és megjelenítése 3.1. Adatok előfeldolgozása 3.1.1. Adattípusok 3.1.2. Adattisztítás 3.1.3. Inkonzisztencia
3/7
Dr. Abonyi János (szerk.): Adatbányászat - a hatékonyság eszköze
3.1.4. Inkompatibilitás 3.1.5. Redundancia 3.1.6. Zaj 3.2. Adatok felkészítése 3.2.1. Transzformálás 3.2.2. Fontos ismérvek kiválasztása 3.2.3. Adatredukció számosságcsökkentéssel 3.3. Adatok megjelenítése 3.3.1. Pont diagram, vonal diagram - grafikon 3.3.2. Oszlop, sáv diagram 3.3.3. Kör diagram 3.4. Feltáró jellegű adatelemzés 3.4.1. Hisztogram 3.4.2. Doboz diagram 3.4.3. Kvantilis ábra 3.5. Több változó együttes megjelenítése és elemzése 3.5.1. Kvantilis-kvantilis ábra 3.5.2. Pontdiagram mátrix 3.5.3. Párhuzamos koordináták 3.6. Adatredukció dimenzió-csökkentéssel 4. Csoportosítás (klaszterezés) 4.1. Motiváció 4.2. Csoportok (klaszterek) 4.3. Objektumok, hasonlósági mértékek 4.3.1. Folytonos értékek különbözősége, hasonlósága 4.3.2. Kategorikus adatok különbözősége, hasonlósága 4.3.3. Vegyes típusú változó különbözősége, hasonlósága, és az attribútumok súlyozása 4.3.4. Csoportokra jellemző távolságok 4.4. Hierarchikus módszerek 4.4.1. Egyesít˝o hierarchikus módszerek 4.4.2. Felosztó hierarchikus módszerek 4.5. Partícionáló módszerek 4.5.1. A k-átlag és a k-medoid algoritmusok 4.6. Fuzzy módszerek 4.6.1. Fuzzy csoportok 4.6.2. A fuzzy c-átlag csoportosítás 4.7. Mesterséges neuronhálós módszerek 4.7.1. Önszervez˝od˝o hálózatok szerkezete, tanítása, ábrázolása 4.7.2. Önszervez˝od˝o hálózatok szerepe a csoportosításokban 4.8. Egyéb csoportosítási módszerek, algoritmusok 4.9. Gyakorlati alkalmazások szoftveres megvalósításai 4.9.1. Csoportosítás a WEKA program használatával 4.9.2. Csoportosítás a Hierarchical Clustering Explorer használatával 5. Osztályozási feladatok 5.1. Mik az osztályozási feladatok? . 5.1.1. Az osztályozási módszerekről
4/7
Dr. Abonyi János (szerk.): Adatbányászat - a hatékonyság eszköze
5.1.2. Az osztályozási feladatok lépései 5.2. Döntési fák 5.2.1. Döntési fák elkészítése 5.2.2. Az információnyereség elve 5.2.3. Gini index 5.2.4. A felépített fa tisztítása 5.3. Bayes-modell alapú osztályozás 5.3.1. A naiv Bayes-osztályozás 5.3.2. Bayes-féle hihetőségi hálók 5.4. A k-legközelebbi szomszéd technika 5.5. Osztályozási modellek pontossága 5.5.1. A pontosság növelésének lehetőségei 5.5.2. Egyéb mérőszámok 5.5.3. Tanulás és tesztelés 6. Gyakori elemhalmazok és asszociációs szabályok feltárása 6.1. Alapfogalmak 6.2. Gyakori elemhalmazokat feltáró algoritmusok jellemzői 6.2.1. Jelölt keresési módszerek 6.2.2. Gyakoriság számlálási technikák 6.3. Nevezetesebb algoritmusok bemutatása 6.3.1. Szintenként haladó algoritmusok 6.3.2. Mélységben haladó algoritmusok 6.4. Gyakori elemhalmazok kompakt képviselete 6.4.1. Maximális gyakori elemhalmazok 6.4.2. Zárt gyakori elemhalmazok 6.5. Asszociációs szabályok feltárása 6.5.1. Érvényes asszociációs szabályok előállítása 6.5.2. A szabályok korlátai 6.5.3. Érdekességi mutatók - asszociációs szabályok kiválasztása 6.6. A gyakori elemhalmazok és asszociációs szabályok különböző típusai 6.6.1. Mennyiségi asszociációs szabályok 6.6.2. Többszintű asszociációs szabályok 6.7. Gyakorlati példa 6.7.1. Szabálykeresés a Weka programmal 6.7.2. Kutatási célra hozzáférhető algoritmusok 6.8. Irodalom 7. Regressziós technikák 7.1. Lineáris regresszió 7.2. Regresszió eredményének értékelése 7.3. Reguralizált regresszió 7.4. Nemlineáris regresszió 7.4.1. Paramétereiben lineáris regresszió 7.4.2. Interpoláció spline-okkal 7.4.3. Radiális bázisfüggvények 7.4.4. Mesterséges neurális hálózatok 7.4.5. Paramétereiben nemlineáris regresszió
5/7
Dr. Abonyi János (szerk.): Adatbányászat - a hatékonyság eszköze
8. Idősorok elemzése 8.1. Az idősorok és tulajdonságaik 8.1.1. Az idősorok számítógépre vitele 8.1.2. Egyéb tulajdonságok 8.2. Idősorok jellemzése egyszerű mutatókkal 8.3. Az idősorok dekompozíciója 8.3.1. Trendelemzés - tervezzünk hosszú távra 8.3.2. Szezonális mozgások - télen kevesebb jégkrém fogy 8.3.3. A ciklikus komponens meghatározása 8.3.4. Összefoglalás 8.4. Idősorok távolsága 8.4.1. Az Euklideszi távolság problémái 8.5. Dinamikus idővetemítés 8.6. Indexelési lehetőségek 8.6.1. Diszkrét Fourier-transzformáció 8.6.2. Diszkrét Wavelet Transzformáció 8.6.3. Indexelés DTW-vel 9. Szövegbányászat 9.1. A szövegbányászat feladata 9.2. Dokumentumok előfeldolgozása 9.2.1. A dimenziószám csökkentése 9.2.2. Hatékonyság mérése 9.3. Osztályozás 9.3.1. Osztályozás strukturálatlan kategóriák rendszerébe 9.3.2. Hierarchikus osztályozás 9.4. Dokumentumok csoportosítása 9.4.1. Szövegklaszterezés jellemző feladatai és problémái 9.4.2. Reprezentáció 9.5. Kivonatolás 9.5.1. Az összegzéskészítő eljárások felosztása 9.5.2. A kivonatolás hatékonyságának mérése 9.5.3. Mondatkiválasztásnál használt jellemzők 9.5.4. A módszerekről röviden 9.6. Egyéb szövegbányászati feladatok 9.6.1. Információkinyerés 9.6.2. Témakövetés 9.6.3. Fogalomtársítás 9.6.4. Szöveges információk vizualizálása 9.6.5. Kérdés-megválaszolás 9.6.6. Nyelvfeldolgozás és szövegbányászat 9.6.7. Szövegbányászat magyarul 9.7. Szövegbányászati szoftverek ismertetése 10. Ügyfélkapcsolat menedzsment 10.1. Az ügyfélkapcsolat menedzsment alapjai 10.1.1. Az ügyfélkapcsolat menedzsment fogalma 10.1.2. A CRM folyamata
6/7
Dr. Abonyi János (szerk.): Adatbányászat - a hatékonyság eszköze
10.2. Alkalmazások 10.2.1. Ügyfélszegmentáció 10.2.2. Ügyfélérték számítás 10.2.3. Ügyfelek lojalitása 10.2.4. Keresztértékesítés 10.2.5. Kampánymenedzsment 10.2.6. Példa a CRM alapú működés bevezetésére egy hazai kereskedelmi bankban
7/7