Master HI
Geavanceerde data wetenschappen
1ste deel - inclusief opgeloste oefeningen
Q 182
uickprinter Koningstraat 13 2000 Antwerpen www.quickprinter.be
3.50 EUR
Nieuw!!! Online samenvattingen kopen via www.quickprintershop.be
Geavanceerde data wetenschappen Prof D. Martens & Prof J. Springael Data science & Data mining Semester 1
Data science for business – What you need to know about data mining and data-analytic thinking
0
Lecture 1 (Ch. 1 & 2 ) Chapter 1: Introduction: Data-analytic thinking Terminology
Data science/wetenschappen = fundamentele principes om kennis/info te halen uit je data Data mining = automatisch info halen uit data via verschillende technologieën; patronen in data vinden Big data = zo veel data dat de gewone, traditionele verwerkingssystemen er geen info of kennis kunnen uithalen Quering = naar bepaalde data zoeken in een gigantische dataset, je weet perfect waar je naar zoekt (SQL) OLAP = On-Line Analytical Processing; multidimensionele analyse; je data wordt visueel voorgesteld & je weet waar je naar zoekt (SQL) (in tegenstelling tot data mining). Business Intelligence (BI) = juiste info krijgen naar de juiste persoon op het juiste moment Explanatory modeling = hypotheses testen Predictive modeling = zo accuraat mogelijk voorspellingen maken Voorbeeld: Real time bidding = persoon zit op een site waar adverteerders hun advertenties op kunnen zetten. Die adverteerders bieden op dat moment, dat de persoon op de site zit, om hun advertentie daar te plaatsen. Ze gaan bieden naargelang ze denken dat die persoon wel geïnteresseerd zou kunnen zijn in hun product. => persoonlijke aanpak Data mining process = data mining is een proces want er heeft enorm veel mee te maken: creativiteit, gezond verstand, wetenschap,… CRISP-DM = CRoss Industry Standard Process for Data Mining
Mini cases Case 1: Hoe kunnen kranten data gebruiken voor betere online reclame?
Wat gaan we voorspellen? In welke producten de personen geïnteresseerd zijn. Input: artikelen die gelezen worden (rij = abonnee), op welke advertenties dus geklikt is, want dan is de kans dat ze geïnteresseerd zijn toch groter
1
Case 2: Hoe kan een HR-afdeling van een groot bedrijf data mining gebruiken voor een betere retentie & aanwerving van werknemers?
Wat gaan we voorspellen? De waarde van een persoon in het bedrijf => moeilijk om te berekenen. Dus beter het verloop voorspellen: gaan ze ontslag nemen of niet; ziekteverzuim; worden ze ontslagen; … Input: persoonlijke gegevens, details van een persoon (rij = persoon)
Data mining = top trend Data mining is een enorme trend geworden, enorm belangrijk, want tegenwoordig is er zoveel informatie overal beschikbaar, omdat het toch niets kost om al die informatie op te slaan. Obama heeft bijvoorbeeld bij de verkiezingen proberen voorspellen wie de twijfelaars zijn bij de stemmers. Diegene die al voor hem gingen stemmen, daar moest hij zijn campagne niet meer op afstellen, maar dus eerder op de mensen die twijfelden, zodat hij dan met een gepaste campagne die ook nog zou kunnen overhalen om voor hem te stemmen.
Mini cases II Telco (gsm provider) heeft problemen met klanten die overstappen naar de concurrent. Welke data kunnen helpen om dit te managen?
Input: hebben ze klacht in gediend; welke producten hebben ze gekocht; wie heeft er gekocht (sociodemografische data); prijs/concurrentie vergelijken; hoe lang is de persoon klant (geweest) ; sociaal netwerk (als vrienden bvb ook zijn overgestapt) ; Recency, Frequency & Monetary Doel: gaat de klant weg of niet
Data mining: opslag – networking – algoritmes – rekencapaciteit van pc Essentieel voor effectieve en succesvolle data mining
2
Wat zal er behandeld worden in de lessen? Data mining lectures Pre-processing: Data eerst voorbereiden voor het data mining algoritme. Problemen: soms ontbrekende waarden, uitschieters, data van meerdere databases, …
Voorspellend o Classificatie: Doelvariabele zijn discreet Toepassingen: financieel, marketing, terrorisme o Regressie: Continue doelvariabele Toepassingen: financieel & marketing Beschrijvend o Similarity matching: neem gelijke individuen waar gebaseerd op data die je over hen hebt => basis voor aanbevelingen bij mensen o Clustering: data verdelen in groepen die binnenin de groep allemaal gelijkend zijn, maar tussen de verschillende groepen zelf is er zo weinig mogelijk gelijkenis (toepassing: segmentatie) o Associaties: veel voorkomende patronen detecteren (vb. market basket analysis) o Profiling (& anomaly detection): een typisch profiel van een individu, groep of populatie typeren/kenmerken o Link voorspellend: voorspel linken tussen verschillende data onderdelen => vrienden voorstellen op sociale netwerken o Data reductie: vervang een groot deel van de data door een klein deel die meeste van de informatie bevat o Causal modeling: welke dingen beïnvloeden uiteindelijk elkaar
Post processing: interpreteren en valideren van de informatie: is het interessant, is het bruikbaar, wat is onze intuïtie erbij.
Wat wordt er verwacht voor de lessen & het examen?
Lessen: hoofdstukken op voorhand lezen & actief meedoen in de les Examen: o 1e semester: D. Martens: Data science & data mining o 2e semester: J. Springael: Forecasting o Zowel voor 1e semester als voor 2e semester slagen o Mondeling examen o Extra WEKA praktisch examen o Data science challenge: optioneel, niet verplicht, kan je wel een extra punt mee verdienen
3