Identifikace tématických sociálních sítí Jiří Jelínek Katedra managementu informací Fakulta managementu J. Hradec Vysoká škola ekonomická Praha
Identifikace tématických sociálních sítí 2
Obsah prezentace
Cíl
Fáze řešení a navržené postupy
Prototyp a výsledky
Další postup
Jiří Jelínek
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 3
Cíl
Kdo se tím zabývá?
identifikace osob spojených s daným tématem, oblastí či problematikou vzájemné vazby osob
Tématická sociální síť
Souhrn metod a postupů pro praktické užití
Využití WWW prostoru jako zdroje dat
Jiří Jelínek
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 4
Fáze řešení Interakce s WWW prostorem
Detekce vlastních jmen osob
Zpřesnění identifikace osob
Detekce vazeb mezi osobami
Vizualizace Jiří Jelínek
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 5
Interakce s WWW prostorem téma Interakce s WWW prostorem množina dokumentů
Téma reprezentováno klíčovými slovy
Výstupem množina textových dokumentů
Použití WWW vyhledávačů
Jiří Jelínek
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 6
Detekce vlastních jmen osob množina dokumentů Detekce vlastních jmen osob vlastní jména osob
Metody NLP
Statistický přístup
Slovníky vlastních jmen osob
Využití kontextu
Jiří Jelínek
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 7
Detekce vlastních jmen osob množina dokumentů
Použití masky
NLP tagger kandidáti
Ohodnocení h hmax, hmin Klasifikace vlastní jména osob
Jiří Jelínek
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 8
Detekce vlastních jmen osob kandidáti
Kontrola křestních jmen
kf
Kontrola příjmení (WordNet)
Kontrola příjmení
kl
kw
∑
Učení z předchozích rozhodnutí ks
Kontrola slov v okolí
kc
h = k f + kl + k w + ks + k c
h Jiří Jelínek
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 9
Detekce vlastních jmen osob
Kontrola křestních jmen – 60 tis. jmen
Behind the Name - the Etymology and History of First Names DBLP Bibliography
Kontrola příjmení – 217 tis. příjmení
Jiří Jelínek
Frequently Occurring Names from the 1990 Census ICU Project at the Data Privacy Laboratory DBLP Bibliography
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 10
Detekce vlastních jmen osob
Kontrola příjmení (Wordnet) – 143 tis. slov
kladné ohodnocení, pokud kandidát není ve Wordnetu
Učení z předchozích rozhodnutí
lze na křestní jména i příjmení
ks = ksm
Kontrola slov v okolí
Jiří Jelínek
cp − cn cp + cn
sledování „okolí“ kandidáta (3 slova před a po) jako u učení Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 11
Zpřesnění identifikace vlastní jména osob + téma Zpřesnění identifikace identifikace osob
Čištění vstupních dat
Jiří Jelínek
zpracování gramatických chyb a různých zápisů křestních jmen i příjmení koef. shody (soundex, levenshtein)
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 12
Zpřesnění identifikace
Odlišit osoby se stejným vlastním jménem
užití tématu jako doplňkové informace v tématu jedna osoba s daným vlastním jménem
Identifikace osob s různou formou zápisu vlastního jména
Jiří Jelínek
John Smith – J. W. Smith – Smith, J. William – John William Smith z možných zápisů vybrán ten nejúplnější
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 13
Detekce vazeb mezi osobami identifikace osob + množina dokumentů Detekce vazeb mezi osobami identifikace vazeb
Množina dokumentů S - jedno téma nebo sjednocení dokumentů z vybraných témat Váha wiS termu i vzhledem k S
Jiří Jelínek
množina významných termů V - wiS > práh
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 14
Detekce vazeb mezi osobami
Detekce vazeb mezi termy ve V
podle společného výskytu ve vstupních dokumentech síla vazby pijS mezi termy i a j nad množinou S
Významnost vazby hijS mezi termy
vazby významných osob nebo pevné týmy – koef. k dále jen vazby, kde hijS > práh hijS = k ( wiS + w jS ) + (1 − k ) pijS
Jiří Jelínek
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 15
Vizualizace osoby + vazby + témata Vizualizace
Knihovna Graphwiz
Vzdálenost uzlů sítě úměrná 1/hijS
algoritmus NEATO
na vstupu vizualizace, nelze vždy
Barva uzlů podle wiS
Jiří Jelínek
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 16
Prototyp a dosažené výsledky
Aplikace v PHP + MySQL
Interakce s WWW prostorem
Google pro získání množiny dokumentů přímé načtení zadaného URL a jeho přidání k tématu
Detekce vlastních jmen osob
Jiří Jelínek
ohodnocení nalezených kandidátů ruční v úvodních fázích – návrh h min a hmax později automatické Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 17
Prototyp a dosažené výsledky
Zpřesnění identifikace
Detekce vazeb mezi termy
bez čištění dat
analýza množiny témat podle zadaných prahových hodnot wiS a hijS nebo podle požadovaného počtu zobrazených vazeb
Grafické zobrazení výstupu
Jiří Jelínek
zobrazení osob v tématu podle příjmení vazby vybraného jedince podle příjmení seznam dosud načtených témat a dokumentů Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 18
Nastavení vstupních hodnot
Volba kf , kl , kw , ksm , kcm
tak, aby byla co nejlépe odlišitelná vlastní jména osob od ostatních slovních spojení zvoleno hmin = hmax = hm pro dané hm e – chybně ohodnocené negativní příklady n e – chybně ohodnocené pozitivní příklady p
cn + en = cn Jiří Jelínek
ep =
cp − cp Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 19
Nastavení vstupních hodnot
Volba hm
podle ed = | ep – en | (stejná velikost chyb ep a en) podle es = ep + en (minimální souhrnná chyba) 35,00 30,00 25,00 en ep ed es
e [%]
20,00 15,00 10,00 5,00 0,00 -1,00
-0,50
0,00
0,50
1,00
1,50
2,00
hm
Jiří Jelínek
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 20
Výsledky
16671 klasifikovaných termů, z toho 3079 pozitivně hodnocených jako vlastní jména osob 17 témat 397 WWW stránek
Jiří Jelínek
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 21
Další postup
Základ pro další výzkum
Rozšíření záběru a zpřesnění dosahovaných výsledků
rozšíření vstupních importních filtrů - citační servery
Stanovení vhodných hodnot kf , kl, kw, ksm, kcm
Jiří Jelínek
genetické algoritmy F(kf , kl, kw, ksm, kcm) = ed (kf , kl, kw, ksm, kcm)
Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 22
Další postup
Metodika automatizovaného stanovení mezních hodnot hmin a hmax (event. hm)
Zpřesnění identifikace osob
výběr vhodného kritéria
využití WWW zdrojů
Vizualizace výstupů
Jiří Jelínek
3D zobrazení pomocí jazyka VRML, X3D Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 23
Závěr
Příspěvek do oblasti detekce potenciálních sociálních sítí
Navrženy metody práce s vlastními jmény osob
Funkční prototyp aplikace, prakticky otestován
Výstupy použitelné všude, kde je potřeba identifikovat tématicky definované sociální sítě
Jiří Jelínek
výzkum, finančnictví, kriminalistika, ekonomika, atd. Znalosti 2008, Bratislava, 13.2.2008
Identifikace tématických sociálních sítí 24
Děkuji za pozornost Otázky?
Jiří Jelínek
Znalosti 2008, Bratislava, 13.2.2008