Předzpracování dat Pavel Kordík
Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Cvičení 4: Zadání úloh MI-PDD, 09/2011 MI-POA
Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
1/29
Vlastní téma • Předzpracování dat z různých zdrojů (obrázek, text, web, signál, řeč…) – Kvalitní rešerše dostupných metod – Výběr vhodných metod – Ukázka na reálných datech – Porovnání úspěšnosti (korelace nebo společná informace s výstupem, případně úspěšnost modelů na testovacích datech)
• Doporučení: vyhněte se implementaci, snažte se použít dostupné simulátory (GPL kód) Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
2/29
Soutěže KDD, Netflix • Většinou hlavně o vhodném předzpracování dat – Google: data mining competitions
• Soutěž FS (výběr příznaků) metod – http://clopinet.com/isabelle/Projects/NIPS2003/
• Netflix – recommending movies – http://www.netflixprize.com/assets/GrandPrize2009_BPC_ BellKor.pdf – http://www.netflixprize.com/assets/GrandPrize2009_BPC_ BigChaos.pdf – http://www.netflixprize.com/assets/GrandPrize2009_BPC_ PragmaticTheory.pdf Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
3/29
Neurochirurgie Motol • Snímán tlak v hlavě po úrazu (otok mozku) • Jak tlak závisí na dalších snímaných ukazatelích? • Vhodné předzpracování zápisu manipulace s pacientem
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
4/29
Neurologie v Hradci Králové
Electrophysiological Laboratory Charles University in Prague Faculty of Medicine in Hradec Králové
http://www.lfhk.cuni.cz/elf/
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
5/29
Hradec - Spánková data
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
6/29
Vývoj programu pro hodnocení časových řad • Zpracování extrahovaných dat • Ohodnocování charakteru časových řad obecně • MIT spánková data naimportovat, vyextrahovat příznaky Matlab! Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
7/29
Hradec - Evokované potenciály
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
8/29
EEG Recording positions
The original figure illustrating the international 10-20 systém Jasper HH (1958): Report of the Committee on Methods of Clinical Examination in Electroencephalography. Electroenceph. Clin. Neurophysiol. 10: 370-1. Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
9/29
Evokované potenciály – poškození očních nervů …
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
10/29
GEOFOND •
Sesuvy
DP Petr Zelenka (http://dip.felk.cvut.cz)
Databáze sesuvů – je třeba prozkoumat závislosti v datech Proč si vybrat tuto práci? - zajímavá data: - zkuste určit, na jakém parametru závisí aktivita sesuvu - najděte zajímavé vazby mezi jednotlivými parametry - najděte parametry metod tak, aby výsledky byly co nejlepší - data jsou již připravena pro experimenty v YALE můžete se tak zaměřit výhradně na experimentování s daty - neřešíte, jak data do nějakého programu vůbec dostat
•
Vrty Preprocessing dat
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
11/29
Geofond – sesuvy v YALE
DP Petr Zelenka (http://dip.felk.cvut.cz) Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
12/29
Evoluční kódování DP Petr Zelenka, Michal Záborec (http://dip.felk.cvut.cz)
Cílem práce je otestovat náš nový plugin do Yale na různých datech Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
13/29
Algoritmic trading … • • • •
Integrace časových řad různých akcií Extrakce příznaků z burzovních dat Multi-time frame přístup Analýza tiskových zpráv a jejich vlivu na vývoj akcií společností • Analýza zpráv na sociálních sítích
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
14/29
FAKE GAME projekt - Nové jednotky - Učicí algoritmy - Stopping criteria - Podpora pro predikci časových řad - Srovnání s KM www.knowledgeminer.com - Srovnání s matlabem (NN toolbox) - Experimenty s nastavením (výpočty na serverech) - Fully Automated Knowledge Extraction
-reportovaní pomocí JasperReports, -tutoriály použití na různých datech -srovnání s Wekou -různé předzpracování -…
sourceforge.net/projects/fakegame http://neuron.felk.cvut.cz/game Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
15/29
IBM SPSS zadání • Vliv vážení dat na přesnost, stabilitu a přínosy modelu binární logistické regrese – Na základě vzorce pro konfidenční intervaly regresních koeficientů porovnejte chování modelů vytvořených nad váženými a neváženými daty. Vážením zde rozumíme buď duplikaci případů s méněčetnou kategorií cílové proměnné, nebo prostý náhodný výběr případů s vícečetnou kategorií cílové proměnné. Obě varianty vážení posuzujte odděleně. Ohodnoťte vliv vážení při učení modelu na přesnost predikcí, stabilitu rozdělení regresního skóre a na průběh ROI evaluační křivky. Teoretické závěry porovnejte s praktickou simulací. Zaměřte se především na hodně nevyvážená rozdělení cílové proměnné.
• Metody výběru proměnných při modelování logistickou regresí nad datovou maticí s mnoha proměnnými – Vypracujte přehled variant, jak postupovat při výběru proměnných pro model binární logistické regrese pro situace, kdy datová matice obsahuje velké množství korelovaných vstupních proměnných. Doporučte vhodný postup pro takové situace a uveďte, čeho bychom se měli vyvarovat. Doporučené postupy a zjištěná rizika ilustrujte na praktické simulaci. Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
16/29
spam pre-filter • Analýza záhlaví zpráv, metainformací a jejich souvislost se „spamovostí“ zpráv Popis poli, ktera jsem ziskal zatim ze seznamu. ip_addr - adresa odesilatele countrycode - rozeznany country code pomoci geoip hdr_from - from adresa z MAIL FROM z SMTP protokolu rcpt - prijemce emailu rcpts - pocet prijemcu v celem mailu mailsize - velikost mailu v bytech szn-spam-score - spam score :) user-id - idcko prijemce(interni informace) ebox-id - idcko storage serveru(interni informace) za poslednich 5 min (paralelne i zasebou): ce-connections - pocet konexi ce-bad-rcpt-to - pocet spatnych RCPT TO v SMTP protokolu ce-bad-mail-from - pocet spatnych MAIL FROM v SMTP protokolu ce-bad-commands - pocet spatnych prikazu v SMTP protokolu ce-mail-sent - pocet odeslanych mailu ce-bytes-sent - pocet odeslanych byte ce-bad-auth - pocet spatnych autorizaci na SMTP relay header:* obsah odpovidajicich hlavicek presne v takovem case, jako jsou v mailech TO_CO_JE_VELKYMA - odpovidajici testy z spamassassinu Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
17/29
Honeywell Prague Laboratory • Data z budov – Energie – Logy z karet –…
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
18/29
Center for chemical genetics • Data mining procesů při buněčném dělení
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
19/29
Nové opensource předzpracovací metody • fakegame@sourceforge • Prostuduj seznam implementovaných předzpracovacích metod • Nastuduj a implementuj novou metodu • Srovnej s dostupnými metodami na několika různých datových souborech
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
20/29
Automatické předzpracování • Otestovat na různých datech • Konzistence výběru předzpracovacích metod • Automatické předzpracování signálů
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
21/29
Preprocessing methods implemented in FAKE GAME
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
22/29
Methods to impute missing values • • • • •
MissingData.ConstantMissingDataImputer MissingData.MedianMissingDataImputer MissingData.NearestNeighbourMissingDataImputer MissingData.RemoveMissingData MissingData.AnotherInstanceValueDataImputer
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
23/29
Methods to normalize data • • • •
Normalization.LinearNormalizer Normalization.SoftmaxNormalizer Normalization.MeanNormalizer Normalization.ZscoreNormalizer
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
24/29
Methods to reduce data • • • • • • • • • • • • • • • • • •
DataReduction.RandomReduce DataReduction.RemoveOutlayers DataReduction.LeaveOutNeighbours DataReduction.KMeansDataReplacer DataReduction.PCA DataReduction.KDTreeReplacer DataReduction.HartCondensingReduce DataReduction.HartCondensingReduce DataReduction.IB3Reduce DataReduction.KubatMatwinReduce DataReduction.Drop3Reduce DataReduction.ChangReduce DataReduction.WilsonsEditingReduce DataReduction.ChenCondensingReduce DataReduction.RSP3CondensingReduce DataReduction.SpecialCondensingReduce DataReduction.AllKNNEditingSchemeAlgorithm DataReduction.RNNCondensingReduce
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
25/29
Other methods • Discretization.EqualSizeBinning • DataEnrichement.Smote Color Size red
• Nominal data encoding – 1 from N – Encoding into single attribute Red color
Green color
Small size
Large size
1
0
1
0
0
1
0
1
1
0
0
1
Pavel Kordík (ČVUT FIT)
Color 0.1 0.3 0.1 Předzpracování dat
Size 0.01 0.9 0.9
small
green large red Color 0.6 or 0.1 0.6
large Size 0.4 0.6 0.6
MI-PDD, 2012, Cvičení 4
26/29
Our experiments with automated encoding of nominal attributes Probability density
Correlation
10% improvement on Golf data Relative accuracy
Relative accuracy
Probability density
Relative accuracy
Relative accuracy
Relative accuracy
Relative accuracy
Diploma thesis Michal Zaborec, Minh Duc Do, CTU Prague, 2009 Pavel Kordík (ČVUT FIT)
Předzpracování dat
Linear regression
MI-PDD, 2012, Cvičení 4
27/29
Putting (preprocessing methods) all together • For each feature, optimal sequence of preprocessing methods is evolved by GA Genetic Algorithm evolving preprocessing sequences
Preprocessing Sequences Raw data
GAME Ensemble of models
Selected representative data subset
Pavel Kordík (ČVUT FIT)
Error of models, fitness function
Předzpracování dat
Automated data preprocessing MI-PDD, 2012, Cvičení 4
28/29
Evolving preprocessing sequences
Pavel Kordík (ČVUT FIT)
Předzpracování dat
MI-PDD, 2012, Cvičení 4
29/29