1. Veronderstel dat je als datamining consultant werkt voor een Internet Search Engine bedrijf. Beschrijf hoe datamining het bedrijf kan helpen door voorbeelden te geven van specifieke toepassingen van clustering, classificatie en associatie regels. 2. Geef een voorbeeld van hoe datamining gebruikt kan worden om frauduleuze geldtransacties te identificeren. 3. Illustreer de verschillende stappen in het “knowledge discovery process” met een eigen voorbeeld. 4. Welke datamining techniek sluit het best aan bij volgende problemen? Verklaar je antwoord: a. Het gegroepeerd weergeven van zoekresultaten. Bijvoorbeeld: indien er gezocht wordt op “jaguar” worden twee groepen documenten weergegeven: diegene die met het dier te maken hebben en degene die met het automerk te maken hebben. b. Ontwerpen van een spam-filter voor email. c. Het ontdekken van wiki-spam; dit zijn reclame-boodschappen “vermomd” als wikipedia-paginas. 5. Wat is juist de curse of dimensionality en waarom is dit een probleem? 6. Wat zijn de voor- en nadelen van discretisatie. 7. Veronderstel dat we een dataset hebben met 53 numerieke attributen N1, ..., N53, 15 binaire attributen B1, ..., B15 en 3 nominale attributen V1, V2, V3. Ontwerp twee verschillende afstandsmaten om de afstand tussen twee tuples in deze dataset te meten. a. Welke van de twee door jou voorgestelde afstandsmaten geniet jouw voorkeur en waarom? b. Wat is het voordeel van het hebben van een afstandsmaat tussen de tuples in een dataset? 8. Wat is het verschil tussen gesuperviseerde en niet-gesuperviseerde data mining technieken? In welke klasse vallen de technieken association rule mining, clustering, classificatie en outlier detectie? 9. Geef de voor- en nadelen van sampling en beschijf mogelijke oplossingen voor de nadelen.
10. Geef een beslissingsboom omvolgende dataset te classificeren. Construeer de boom met de hand. A 1 2 1 6 5
B 6 8 10 5 8
Class + + + -
a. Bereken de GINI-index van de splits A<3, A<5, and B<7 in de root node. Welke split is het meest voordelige om het klasse-attribuut te voorspellen? Leg uit waarom dit een goede keuze is. b. Leg uit wat overfitting is in de context van het leren van classifiers; illustreer. 11. Pas het Apriori-algoritme toe op de voorbeeld dataset gegeven hieronder. Toon in jouw oplossing de verschillende tussenstappen.
TID
Items
1
Bread, Milk
2 3 4 5
Bread, Diaper, Beer, Eggs Milk, Diaper, Beer, Coke Bread, Milk, Diaper, Beer Bread, Milk, Diaper, Coke
a. Leg uit hoe deze itemsets gebruikt kunnen worden om alle associatieregels te vinden met een support van 50% en een confidence van 60%. b. Welke van de frequente itemsets is closed? c. Verklaar de volgende zin: “Apriori is een breadth-first algoritme”. 12. Zelfde als vraag 10, maar nu met FPGrowth. 13. Beschouw de volgende, alternatieve definitie voor support van een itemset I, de zogenaamde length-dependant support lsup(I): lsup(I) = support(I)/|I| Dus, de length-dependant support is de support van de itemset gedeeld door z’n lengte. Is deze support-measure anti-monotoon? Waarom is anti-monotoniciteit van support measures belangrijk bij het minen van frequente itemsets?
14. Veronderstel dat de volgende verzameling alle closed itemsets met een support van minstens 10% bevat. (X:f betekent X is een itemset met support f) { {c}:100%, {b,c}:80%, {a,b,c}:40% } Wat is de support van de volgende itemsets (antwoord met ofwel een exacte frequentie, ofwel met “de set is niet frequent”)? a. {a,c} b. {b} c. {a,b} 15. Een van de problemen met het DBSCAN algoritme is dat de gebruiker zelf de parameters MinPts and Eps moet bepalen. De goede werking van het algoritme hangt kritisch af van een goede keuze van waardes voor deze parameters. Leg een methode uit die een gebruiker kan helpen om een goede keuze kan maken voor deze parameters.
16. Leg uit waarom het vinden van goede startpunten voor het k-means algoritme zo belangrijk is. Wat is het probleem van een slechte keuze?
17. Leg het Adaboost algoritme uit. Wat is de motivatie voor het herwegen van de voorbeelden in AdaBoost? 18. Waarom is accuracy niet geschikt als kwaliteitsmaat bij classificatie als de grootte van de verschillende klassen erg verschillend is? Wat zijn hier mogelijke oplossingen? 19. Wat is cost-sensitive classification? Geef een voorbeeld waar cost-sensitive classification nuttig is. 20. Beschouw de classificatie methodes kNN, Naive Bayes en die gebaserd op beslissingsbomen. Welke methode wou je gebruiken voor volgende datasets (geef bij kNN aan welke afstandsmaat nuttig zou kunnen zijn)? Leg uit waarom. a. Grote trainingset, klein aantal numerieke attributen die afhankelijk van elkaar. b. Alle attributen zijn binair. Er is een groot aantal attributen, en ze zijn afhankelijk. c. Groot aantal attributen, geen afhankelijkheid tussen de attributen. 21. Leg Hunt’s algoritme uit. Geef je eigen voorbeeld. Wat wordt er bedoeld met “Hunt’s algoritms splitst de record gebaseerd op een lokaal criterium”
22. Page Rank. Werk in het volgende voorbeelden (met spider trap en dead ends) de page-rank uit. (Eens de trend duidelijk is kan je stoppen met rekenen...) a) Zonder constante factor b) Met constante factor, stel α = 0.8
a Dead end b
c
a Spider trap b
c
23. Hubs and Authorities. Voorspel in de onderstaande graaf welke nodes volgens jou hubs en authorities zullen worden. Ga dit vervolgens na door een aantal iteraties uit te werken.
24. Geef de FPTree voor volgende database: TID Items 1 A, B, C, D, E 2 B, C, D, F 3 A, C, D, G 4 B, C, F 5 D, E, G, H, I 25. Beschouw de volgende FPTree: {} : 12
C:2
A:6
B:2
B:4
D:2
D:1
D:1
E:1
C:4 F:1
D:2
E:1
E:1
Geef de originele transactie database. Zoek bovendien de frequentie van de volgende sets in de FPTree: AB, AD, CDE en DE.