Vytěžování znalostí z dat Pavel Kordík, Jan Motl
Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague
Cvičení 13: Asociační pravidla, zadání úlohy BI-VZD, 09/2011 MI-POA
Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 13
1/10
Asociační pravidla • Analýza vztahů v datech • Výsledkem jsou pravidla • Přesná • Častá
• Prozkoumejte nástroj Lisp Miner
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 13
2/10
Úloha • Zpracujte data z přiložených souborů • Vytěžte pravidla • Udělejte report, který přinesete na zkoušku
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 13
3/10
Popis dat •
Archiv obsahuje následující data: clicks.csv • LocalID - interní identifikátor události • PageID - identifikátor zobrazené stránky • VisitID - identifikátor session • PageName - relativní uri navštívené stránky • CatName, CatID - typ stránky(Navigace), obecnější granularita • ExtCat,ExtCatID - typ stránky (Obsah), konkrétnější granularita • TopicName, TopicID - téma stránky (VHT = vysokohorská turistika) • TimeOnPage - čas na stránce v sekundách. Na poslední stránce v session se předpokládá 30s. Údaj je zaokrouhlen na půlminutové bloky. • PageScore - váha stránky odvozená od času na stránce o a pořadí stránky v clickstreamu t podle heuristiky (ln(o)+1)*t • SequenceNumber - pořadí stránky v clickstreamu
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 13
4/10
visitors.csv VisitID - identifikátor session Referrer - anonymizované označení odkazující domény Den - den započetí návštěvy Hodina - hodina započetí návštěvy Delka_sekundy - délka návštěvy v sekundách (součet hodnot TimeOnPage v řádcích se stejným VistiID v clicks.csv) • Delka_pocetstranek - počet navštívených stránek během návštěvy (počet řádků se stejným VistiID v clicks.csv) • • • • •
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 13
5/10
search_engine_map.csv • Referrer - anonymizované označení odkazující domény • Typ_Odkazovace - typ odkazující domény
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 13
6/10
Předzpracování dat •
Navrhněte vhodnou reprezentaci dat pro následné dolování asociačních pravidel a shlukovou analýzu (clustering). • Vytvořte dva soubory, kde každý řádek bude reprezentovat jedno sezení (session) a sloupce budou obsahovat data vhodná pro daný typ úlohy. • V případě váhové funkce zvolte mezi binární, agregovaným časem, nebo agregovaným PageScore.
• • •
Odstraňte příliš krátké návštěvy (Delka_pocetstranek ⇐2). Navrhněte a použijte další metody na pročištění dat. Identifikujte měkké konverze: zobrazení stránky se slevami (n_sleva.asp) a s informacemi o přihlášení (jak_se_prihlasit.htm), pojištění (n_pojistenick.asp) a informacemi o CK (n_kdojsme.asp).
•
Identifikujte tvrdé konverze: zobrazení stránky n_prihlaska.asp, n_katalog.asp (předpokládejte, že stránka se zobrazuje po úspěšně odeslané přihlášce / žádosti o katalog).
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 13
7/10
Dolování dat • Pokuste se v datech nalézt zajímavá asociační pravidla, která se vztahují ke konverzi (konsekvent). • Pokuste se v datech nalézt shluky návštěvníků s podobným profilem (shlukujte především podle atributu TopicName).
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 13
8/10
Hint • K předzpracování dat můžete použít nástroj Pentaho PDI (dříve Kettle) Konkrétně nástroj Spoon • K dolování dat můžete použít Lisp Miner
Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 13
9/10
Výstupy Na zkoušku přineste Report obsahující: • Výsledný výstup dolování asociačních pravidel • Výsledný výstup shlukové analýzy • Zhodnocení výsledků Interpretaci nejzajímavějších vydolovaných asociačních pravidel Popis jednotlivých nalezených shluků
• Zároveň report nahrajte do svého projektového adresáře na EDUXu • Přiložte soubor s předzpracovanými daty pro dolování asociačních pravidel • Přiložte soubor s předzpracovanými daty pro shlukovou analýzu Pavel Kordík, Jan Motl (ČVUT FIT)
Vytěžování znalostí z dat
BI-VZD, 2011, Cvičení 13
10/10