Classification - Prediction Tot hiertoe: vooral ’classification’ • Naive Bayes • k-Nearest Neighbours • ... Op basis van predictor variabelen X1, X2, . . . , Xp klasse Y (= discreet) proberen te bepalen. • Training data: om model te bouwen • Validatie data: om accuraatheid model te testen → confusion matrix
Nu: ook ’prediction’ • k-Nearest Neighbours • Multiple Linear Regression • ... Op basis van predictor variabelen X1, X2, . . . , Xp waarde van continue variabele Y proberen te voorspellen. • Training data: om model te bouwen • Validatie data: om accuraatheid model te testen → numerieke maten Voor elke observatie i, prediction error (residu): ei = yi − yˆi met • yi: de ’echte’ waarde • yˆi: de voorspelde waarde (door het model)
Numerieke maten voor accuraatheid prediction model • MAE/MAED (Mean Absolute Error/Deviation) n 1 X |ei| n i=1
• Average Error n 1 X ei n i=1
• MAPE (Mean Absolute Percentage Error) n ei 1 X | | 100% · n i=1 yi
• RMSE (Root Mean Squared Error) v u n u1 X t e2 n i=1 i
• TSSE Total Sum of Squared Erros n X i=1
e2 i
Enkelvoudige lineaire regressie Op basis van 1 predictor variabele X de waarde van 1 continue output variabele Y proberen te voorspellen. Theoretisch model (populatie): Y = β0 + β 1 · X + met ”ruis”, spreiding in Y . Veronderstellingen: • spreiding in Y voor elke waarde van X hetzelfde ( ∼ N (0, σ 2)) = ’homoscedasticiteit’ • prediction errors (residuen) onafhankelijk van elkaar Training data (v.b. 40% volledige dataset) • co¨ effici¨ enten β0 en β1 schatten → Y = b0 + b1 · X • parameter , spreiding in Y schatten → ’Std. Dev. estimate’ in output
Hoe goed is gevonden model? → afhankelijk van het doel! • Doel analyse: beschrijving (typisch statistiek) → ’goodness of fit’ → berekenen op training data! → R2 (of R) berekenen → hoe dichter bij 1 (of -1), hoe beter → R-squared in output • Doel analyse: voorspelling (typisch data mining) → numerieke maten voor accuraatheid voorspelling (zie vorige slide) → berekenen op validatie data! → Validation Data scoring in output ⇒ evenwicht zoeken tussen de twee → voor data mining: vooral voorspellende kracht belangrijk
Wat bij een andere partitie?
• bijvoorbeeld verhouding 60%-40%, maar andere seed
• bijvoorbeeld andere verhouding, maar zelfde seed
⇒ andere schattingen b0 en b1 voor β0 en β1
→ hoe veel kan dit verschillen van partitie tot partitie?
→ schattingen voor de spreiding in de parameters van partitie tot partitie
→ ’Std. Error’ in output bij ’Coefficient’
Meervoudige lineaire regressie Op basis van meerdere predictor variabelen X1, X2, . . . , Xp de waarde van 1 continue output variabele Y proberen te voorspellen. Theoretisch model (populatie): Y = β0 + β1 · X1 + . . . + βp · Xp + met ”ruis”, spreiding in Y . Veronderstellingen: • spreiding in Y voor elke waarde van X hetzelfde ( ∼ N (0, σ 2)) = ’homoscedasticiteit’ • prediction errors (residuen) onafhankelijk van elkaar Training data (v.b. 40% volledige dataset) • parameters β0, β1, . . . , βp schatten → Y = b0 + b1 · X1 + . . . + bp · Xp • parameter , spreiding in Y schatten → ’Std. Dev. estimate’ in output
Welke predictor variabelen dragen ’echt’ bij tot de voorspelling? ⇒ Welke co¨ effici¨ enten b0, b1, . . . bp zijn significant verschillend van 0? • Het niet nul zijn van een co¨ effici¨ ent in het model kan toeval zijn! (bijvoorbeeld door de (toevallige) observaties in de training data) ⇒ p-waarde berekenen • p-waarde: kans om die waarde voor co¨ effici¨ ent toevallig bij het model in de training data te vinden als die co¨ effici¨ ent in de populatie nul is. ⇒ Kleine p-waarde: co¨ effici¨ ent signifcant verschillend van nul, levert ’echte’ bijdrage tot de voorspelling • ’p-value’ in output bij ’Coefficient’
Optimaal aantal + keuze predictor variabelen? • Te veel variabelen: kans op overfitting! ⇒ eventueel weinig voorspellingskracht • Liefst geen variabelen opnemen die geen bijdrage leveren tot de voorspelling. ⇒ verhogen de spreiding in de voorspellingen • Liefst geen variabelen vewijderen die wel ’echte’ bijdrage leveren tot de voorspelling. ⇒ verhogen de gemiddelde fout in voorspellingen • Opgelet voor predictor variabelen die onderling sterk gecorreleerd zijn! → kan co¨ effici¨ enten vertekenen → onderlinge correlaties opsporen (’matrix plot’ of ’correlation matrix’) • Opgelet voor outliers! • Vuistregel: aantal observaties n in training data minstens gelijk aan 5 · (p + 2)
Methodes om de beste subset van predictor variabelen te kiezen
• eerst: met domeinkennis aantal predictor variabelen reeds reduceren
• daarna: algoritmes gebruiken – ’Exhaustive search’: alle subsets van predictor variabelen proberen – ’Forward selection’: starten met 1 predictor variabele, telkens de meest significante toevoegen – ’Backward selection’: starten met alle predictor variabelen, telkens de minst signifcante verwijderen – ...