Se´manticky´ web a extrakce informacı´ Martin Kavalec
[email protected]
ˇ Katedra informaˇcn´ıho a znalostn´ıho inˇzen´yrstv´ı FIS VSE
´r KEG, 11. 11. 2004 – p.1 Seminaˇ
Prˇehled te´mat •
Vize se´manticke´ho webu
•
Extrakce informacı´ pro se´manticky´ web
•
Ontologie jako spojovacı´ cˇla´nek
´r KEG, 11. 11. 2004 – p.2 Seminaˇ
Motivace pro se´manticky´ web •
•
Sta´vajı´cı´ web je urcˇen pouze pro vnı´ma´nı´ lidmi, strojove´ zpracova´nı´ je mozˇne´ jen ve velmi omezene´ mı´ˇre ´ koly, ktere´ vyzˇadujı´ integraci informacı´ U z ru˚zny´ch zdroju˚ je nutne´ prova´deˇt rucˇneˇ: Prˇ.: Ktere´ obchody v Praze proda´vajı´ kolo Apache Tomahawk, za kolik, jaky´ je jejich telefon a adresa?
´r KEG, 11. 11. 2004 – p.3 Seminaˇ
Co je se´manticky´ web Se´manticky´ web je rozsˇ´ıˇrenı´ sta´vajı´cı´ho webu, ve ktere´m kazˇda´ informace ma´ dobrˇe definovany´ vy´znam a tı´m umozˇnˇuje lepsˇ´ı spolupra´ci lidı´ a pocˇı´tacˇu˚ prˇi jejich zpracova´nı´. – Tim Berners-Lee, James Hendler, Ora Lassila, The Semantic Web, Scientific American, May 2001
´r KEG, 11. 11. 2004 – p.4 Seminaˇ
Vrstvy se´manticke´ho webu
´r KEG, 11. 11. 2004 – p.5 Seminaˇ
RDF: datovy´ model se´manticke´ho web •
Fakta ve tvaru [subjekt predika´t objekt] [Rembrandt namaloval Aristoteles-s-bystouHome´rovou]
•
subjekt a predika´t jsou URI, objekt mu˚zˇe by´t URI nebo litera´l
•
URI jako nositel vy´znamu – dı´ky tomu, zˇe autor programu, uzˇivatel programu i autorˇi publikovany´ch tvrzenı´ cha´pou identifikia´tory subjektu˚, predika´tu˚ i objektu˚ stejneˇ, mu˚zˇe dany´ program pro uzˇivatele udeˇlat neˇco uzˇitecˇne´ho
´r KEG, 11. 11. 2004 – p.6 Seminaˇ
Extrakce informacı´ Extrakcı´ informacı´ se snazˇ´ıme z volne´ho nebo semi-strukturovane´ho textu automaticky identifikovat informace s urcˇity´m vy´znamem Prˇ. v souboru ozna´menı´ o porˇa´dany´ch semina´ˇr´ıch chceme identifikovat na´zev vystoupenı´, jme´no prˇedna´sˇejı´cı´ho, mı´sto, datum a cˇas kona´nı´. •
2 podu´lohy: Rozpozna´nı´ entit, extrakce relacı´ mezi nimi
•
Neˇkolik ma´lo trˇ´ıd entit (okolo 5)
´r KEG, 11. 11. 2004 – p.7 Seminaˇ
Metody extrakce informacı´ •
Wrappery
•
Statisticke´ modely (HMM)
•
Extrakce pomocı´ pravidel
•
Hybridnı´ – LP2
´r KEG, 11. 11. 2004 – p.8 Seminaˇ
Extrakce informacı´ z webu Kromeˇ textu jsou k dispozici dalsˇ´ı informace: • struktura stra ´ nky a jejı´ forma´tova´nı´ (vyznacˇenı´
nadpisu˚, zvy´razneˇnı´ textu, usporˇa´da´nı´ informacı´ v seznamech a tabulka´ch) • topologie webu, tj. ktera ´ stra´nka se na kterou odkazuje
a jaka´ slova k tomu pouzˇ´ıva´ • metadata explicitne ˇ uvedena´ ve www stra´nce • informace z analy´zy struktury URL • informace o obra ´ zcı´ch, jejich rozmeˇrech a vlastnostech
´r KEG, 11. 11. 2004 – p.9 Seminaˇ
Extrakce informacı´ pro se´manticky´ we IE pro se´manticky´ web se lisˇ´ı od situacı´, ve ktery´ch by´va´ typicky vyuzˇita: •
velky´ pocˇet mensˇ´ıch ontologiı´, ktere´ se pru˚beˇzˇneˇ vyvı´jejı´
•
nutnost snadne´ adaptability metod na aplikacˇnı´ oblasti a na zmeˇny v ontologiı´ch
•
potrˇeba rozpozna´vat veˇtsˇ´ı pocˇet trˇ´ıd (rˇa´doveˇ desı´tky)
´r KEG, 11. 11. 2004 – p.10 Seminaˇ
Pozˇadavky na metody extrakce •
mozˇnost adaptace na omezene´m vzorku tre´novacı´ch dat
•
schopnost identifikace relacı´ bez nutnosti hluboke´ syntakticke´ analy´zy; syste´m by meˇl mı´t mozˇnost vyuzˇ´ıt lingvisticke´ informace, pokud jsou k dispozici a jsou spolehlive´, v ostatnı´ch prˇ´ıpadech by meˇl vyuzˇ´ıvat jednodusˇsˇ´ıch metod
•
mozˇnost vyuzˇ´ıt ontologicke´ zdroje, pokud jsou k dispozici
´r KEG, 11. 11. 2004 – p.11 Seminaˇ
Ontologie: zdroj i cı´l extrakce •
Ontologie: ˇr´ıka´, co chceme extrahovat
•
vy´znamna´ soucˇa´st ontologiı´: lexika´lnı´ polozˇky
•
lexikon mu˚zˇe poslouzˇit jako zdroj pro automaticke´ znacˇkova´nı´ tre´novacı´ch dat
•
z takto znacˇkovany´ch dat je mozˇne´ zı´skat extrakcˇnı´ vzory pro koncepty nebo relace
•
tyto extrakcˇnı´ vzory mohou nacha´zet nove´ instance a lexika´lnı´ polozˇky pro ontologii
•
mozˇnost bootstrappingu – snazˇsˇ´ı adaptace na aplikacˇnı´ oblast
´r KEG, 11. 11. 2004 – p.12 Seminaˇ
Ucˇenı´ ontologiı´ •
ucˇenı´ konceptu˚
•
ucˇenı´ taxonomicky´ch relacı´
•
ucˇenı´ netaxonomicky´ch relacı´
´r KEG, 11. 11. 2004 – p.13 Seminaˇ
Vyuzˇitı´ asociacˇnı´ch pravidel Jak nale´zt ze sady textu˚ relace mezi koncepty: 1. Vyhleda´me vy´skyty konceptu˚ v textu (lexika´lnı´ polozˇky konceptu˚ + jejich instancı´) 2. Pokud se dva koncepty vyskytujı´ blı´zko sebe, zapocˇteme je jako „transakci“ 3. Na tyto transakce aplikujeme dolova´nı´ asociacˇnı´ch pravidel 4. Zı´skana´ asociacˇnı´ pravidla prˇedstavujı´ dvojice konceptu˚, mezi nimizˇ lze hledat neˇjakou relaci
Implemetova´no v modulu Text-To-Onto v KAONu
´r KEG, 11. 11. 2004 – p.14 Seminaˇ
Jak spolu koncepty souvisı´? ´ Problem: nema´me zˇa´dne´ vysveˇtlenı´, jak tyto koncepty spolu souvisı´
Tato informace je v textech obsazˇena, avsˇak metoda zpracova´nı´ ji nevyuzˇ´ıva´ C´ıl: Identifikovat tuto informaci v textu a prˇirˇadit ji k zı´skany´m asociacˇnı´m pravidlu˚m
Relace mezi koncepty jsou cˇasto vyja´drˇeny slovesy, navı´c tedy ke konceptu˚m vyhleda´va´me slovesne´ fra´ze
´r KEG, 11. 11. 2004 – p.15 Seminaˇ
Slovesne´ fra´ze •
identifikova´ny na za´kladeˇ POS-tagu˚
•
POS-tagging je (ve srovna´nı´ s parsingem) relativneˇ rychly´ a robustnı´
Vyhleda´va´me fra´ze •
V (C1 , C2 ): vyskytujı´cı´ se podle vzoru C1 near verb near C2
•
V (C): vyskytujı´cı´ se blı´zko konceptu C
K asociacˇnı´mu pravidlu s koncepty (C1 , C2 ) zobrazı´me V (C1 , C2 ) a V (C1 ) ∩ V (C2 )
´r KEG, 11. 11. 2004 – p.16 Seminaˇ
Zajı´mave´ slovesne´ fra´ze Kvantifika´tor pro ohodnocenı´ VCC transakcı´: P (c1 ∧ c2 /v) AE(c1 ∧ c2 /v) = P (c1 /v).P (c2 /v) kde pravdeˇpodobnosti jsou spocˇteny takto: |{ti |v, c1 , c2 ∈ ti }| P (c1 ∧ c2 /v) = |{ti |v ∈ ti }| (ostatnı´ pravdeˇpodobnosti analogicky, ti oznacˇuje jednotlive´ VCC transakce)
´r KEG, 11. 11. 2004 – p.17 Seminaˇ
Relation Explorer
´r KEG, 11. 11. 2004 – p.18 Seminaˇ
Pracovnı´ data •
texty: popisy zemı´ z www.lonelyplanet.com
•
ontologie: cˇa´st TAPu + rozsˇ´ıˇrenı´ o termı´ny pro oblast turismu
Proble´my pu˚sobı´ bohatost a obraznost jazyka v pouzˇity´ch textech – tata´zˇ informace je vyja´drˇena co nejvı´ce ru˚zny´mi zpu˚soby
´r KEG, 11. 11. 2004 – p.19 Seminaˇ
Experiment s korpusem SemCor •
cˇa´st korpusu z Brownovy univerzity
•
koncepty i slovesa mapova´na na jejich synsety ve WordNetu
•
pouzˇili jsme jen cˇa´st SemCoru: novinove´ a odborne´ texty
•
zvolili jsme synsety Person, Organization, Location (+jejich synsety, ktere´ na neˇ bylo mozˇne´ zobecnit)
•
subjektivneˇ „cˇisteˇjsˇ´ı“ vy´sledky, zjevne´ rozdı´ly mezi novinovy´mi a odborny´mi texty
´r KEG, 11. 11. 2004 – p.20 Seminaˇ
Experiment s OpenDirectory 1. v sadeˇ stra´nek odkazovany´ch z Business sekce Open Directory jsme nasˇli vy´skyty termı´nu˚, pod nimizˇ byly stra´nky v katalogu zarˇazeny 2. nalezli jsme slovesa, ktera´ se k teˇmto termı´nu˚m syntakticky va´zˇ´ı cˇasteˇji, nezˇ k jiny´m termı´nu˚m – indika´tory du˚lezˇite´ informace, tj. informacı´ o nabı´zeny´ch produktech
´r KEG, 11. 11. 2004 – p.21 Seminaˇ
Extrakce informacı´ pomocı´ indika´toru˚ 3. pomocı´ neˇkolika nejlepsˇ´ıch indika´toru˚ jsme pak v testovacı´ sadeˇ stra´nek vyhledali veˇty, ktere´ by meˇly obsahovat informaci o produktech 4. v pru˚meˇru 80 % veˇt tuto informaci opravdu obsahovalo Podobny´m zpu˚sobem by bylo mozˇne´ vyuzˇ´ıt pro extrakci informacı´ i lexika´lnı´ polozˇky relacı´ v ontologii.
´r KEG, 11. 11. 2004 – p.22 Seminaˇ
THE END
Deˇkuji za pozornost
´r KEG, 11. 11. 2004 – p.23 Seminaˇ