Sémantický web a extrakce

Se´manticky´ web a extrakce informacı´ Martin Kavalec [email protected]

ˇ Katedra informaˇcn´ıho a znalostn´ıho inˇzenýrstv´ı FIS VSE

´r KEG, 11. 11. 2004 – p.1 Seminaˇ

Prˇehled te´mat •

Vize se´manticke´ho webu

•

Extrakce informacı´ pro se´manticky´ web

•

Ontologie jako spojovacı´ cˇlańek

´r KEG, 11. 11. 2004 – p.2 Seminaˇ

Motivace pro se´manticky´ web •

•

Sta´vajıćı´ web je urcˇen pouze pro vnı´mańı´ lidmi, strojove´ zpracovańı´ je mozˇne´ jen ve velmi omezene´ mı´ˇre ´ koly, ktere´ vyzˇadujı´ integraci informacı´ U z ru˚znyćh zdroju˚ je nutne´ prova´deˇt rucˇneˇ: Prˇ.: Ktere´ obchody v Praze proda´vajı´ kolo Apache Tomahawk, za kolik, jaky´ je jejich telefon a adresa?

´r KEG, 11. 11. 2004 – p.3 Seminaˇ

Co je se´manticky´ web Se´manticky´ web je rozsˇ´ıˇrenı´ sta´vajıćı´ho webu, ve ktere´m kazˇda´ informace ma´ dobrˇe definovany´ vy´znam a tı´m umozˇnˇuje lepsˇ´ı spolupraći lidı´ a pocˇı´tacˇu˚ prˇi jejich zpracovańı´. – Tim Berners-Lee, James Hendler, Ora Lassila, The Semantic Web, Scientific American, May 2001

´r KEG, 11. 11. 2004 – p.4 Seminaˇ

Vrstvy se´manticke´ho webu

´r KEG, 11. 11. 2004 – p.5 Seminaˇ

RDF: datovy´ model se´manticke´ho web •

Fakta ve tvaru [subjekt predika´t objekt] [Rembrandt namaloval Aristoteles-s-bystouHome´rovou]

•

subjekt a predika´t jsou URI, objekt mu˚zˇe by´t URI nebo litera´l

•

URI jako nositel vy´znamu – dı´ky tomu, zˇe autor programu, uzˇivatel programu i autorˇi publikovanyćh tvrzenı´ cha´pou identifikia´tory subjektu˚, predika´tu˚ i objektu˚ stejneˇ, mu˚zˇe dany´ program pro uzˇivatele udeˇlat neˇco uzˇitecˇne´ho

´r KEG, 11. 11. 2004 – p.6 Seminaˇ

Extrakce informacı´ Extrakcı´ informacı´ se snazˇ´ıme z volne´ho nebo semi-strukturovane´ho textu automaticky identifikovat informace s urcˇity´m vy´znamem Prˇ. v souboru ozna´menı´ o porˇa´danyćh semina´ˇr´ıch chceme identifikovat na´zev vystoupenı´, jmeńo prˇedna´sˇejıćı´ho, mı´sto, datum a cˇas konańı´. •

2 podu´lohy: Rozpoznańı´ entit, extrakce relacı´ mezi nimi

•

Neˇkolik ma´lo trˇ´ıd entit (okolo 5)

´r KEG, 11. 11. 2004 – p.7 Seminaˇ

Metody extrakce informacı´ •

Wrappery

•

Statisticke´ modely (HMM)

•

Extrakce pomocı´ pravidel

•

Hybridnı´ – LP2

´r KEG, 11. 11. 2004 – p.8 Seminaˇ

Extrakce informacı´ z webu Kromeˇ textu jsou k dispozici dalsˇ´ı informace: • struktura stra ´ nky a jejı´ forma´tovańı´ (vyznacˇenı´

nadpisu˚, zvy´razneˇnı´ textu, usporˇa´dańı´ informacı´ v seznamech a tabulkaćh) • topologie webu, tj. ktera ´ strańka se na kterou odkazuje

a jaka´ slova k tomu pouzˇ´ıva´ • metadata explicitne ˇ uvedena´ ve www strańce • informace z analy´zy struktury URL • informace o obra ´ zcıćh, jejich rozmeˇrech a vlastnostech

´r KEG, 11. 11. 2004 – p.9 Seminaˇ

Extrakce informacı´ pro se´manticky´ we IE pro se´manticky´ web se lisˇ´ı od situacı´, ve kteryćh by´va´ typicky vyuzˇita: •

velky´ pocˇet mensˇ´ıch ontologiı´, ktere´ se pru˚beˇzˇneˇ vyvı´jejı´

•

nutnost snadne´ adaptability metod na aplikacˇnı´ oblasti a na zmeˇny v ontologiıćh

•

potrˇeba rozpozna´vat veˇtsˇ´ı pocˇet trˇ´ıd (rˇa´doveˇ desı´tky)

´r KEG, 11. 11. 2004 – p.10 Seminaˇ

Pozˇadavky na metody extrakce •

mozˇnost adaptace na omezene´m vzorku treńovacıćh dat

•

schopnost identifikace relacı´ bez nutnosti hluboke´ syntakticke´ analy´zy; syste´m by meˇl mı´t mozˇnost vyuzˇ´ıt lingvisticke´ informace, pokud jsou k dispozici a jsou spolehlive´, v ostatnıćh prˇ´ıpadech by meˇl vyuzˇ´ıvat jednodusˇsˇ´ıch metod

•

mozˇnost vyuzˇ´ıt ontologicke´ zdroje, pokud jsou k dispozici

´r KEG, 11. 11. 2004 – p.11 Seminaˇ

Ontologie: zdroj i cı´l extrakce •

Ontologie: ˇr´ıka´, co chceme extrahovat

•

vy´znamna´ soucˇa´st ontologiı´: lexika´lnı´ polozˇky

•

lexikon mu˚zˇe poslouzˇit jako zdroj pro automaticke´ znacˇkovańı´ treńovacıćh dat

•

z takto znacˇkovanyćh dat je mozˇne´ zı´skat extrakcˇnı´ vzory pro koncepty nebo relace

•

tyto extrakcˇnı´ vzory mohou nacha´zet nove´ instance a lexika´lnı´ polozˇky pro ontologii

•

mozˇnost bootstrappingu – snazˇsˇ´ı adaptace na aplikacˇnı´ oblast

´r KEG, 11. 11. 2004 – p.12 Seminaˇ

Ucˇenı´ ontologiı´ •

ucˇenı´ konceptu˚

•

ucˇenı´ taxonomickyćh relacı´

•

ucˇenı´ netaxonomickyćh relacı´

´r KEG, 11. 11. 2004 – p.13 Seminaˇ

Vyuzˇitı´ asociacˇnıćh pravidel Jak nale´zt ze sady textu˚ relace mezi koncepty: 1. Vyhleda´me vy´skyty konceptu˚ v textu (lexika´lnı´ polozˇky konceptu˚ + jejich instancı´) 2. Pokud se dva koncepty vyskytujı´ blı´zko sebe, zapocˇteme je jako „transakci“ 3. Na tyto transakce aplikujeme dolovańı´ asociacˇnıćh pravidel 4. Zı´skana´ asociacˇnı´ pravidla prˇedstavujı´ dvojice konceptu˚, mezi nimizˇ lze hledat neˇjakou relaci

Implemetovańo v modulu Text-To-Onto v KAONu

´r KEG, 11. 11. 2004 – p.14 Seminaˇ

Jak spolu koncepty souvisı´? ´ Problem: nema´me zˇa´dne´ vysveˇtlenı´, jak tyto koncepty spolu souvisı´

Tato informace je v textech obsazˇena, avsˇak metoda zpracovańı´ ji nevyuzˇ´ıva´ C´ıl: Identifikovat tuto informaci v textu a prˇirˇadit ji k zı´skany´m asociacˇnı´m pravidlu˚m

Relace mezi koncepty jsou cˇasto vyja´drˇeny slovesy, navıć tedy ke konceptu˚m vyhleda´va´me slovesne´ fra´ze

´r KEG, 11. 11. 2004 – p.15 Seminaˇ

Slovesne´ fra´ze •

identifikovańy na za´kladeˇ POS-tagu˚

•

POS-tagging je (ve srovnańı´ s parsingem) relativneˇ rychly´ a robustnı´

Vyhleda´va´me fra´ze •

V (C1 , C2 ): vyskytujıćı´ se podle vzoru C1 near verb near C2

•

V (C): vyskytujıćı´ se blı´zko konceptu C

K asociacˇnı´mu pravidlu s koncepty (C1 , C2 ) zobrazı´me V (C1 , C2 ) a V (C1 ) ∩ V (C2 )

´r KEG, 11. 11. 2004 – p.16 Seminaˇ

Zajı´mave´ slovesne´ fra´ze Kvantifika´tor pro ohodnocenı´ VCC transakcı´: P (c1 ∧ c2 /v) AE(c1 ∧ c2 /v) = P (c1 /v).P (c2 /v) kde pravdeˇpodobnosti jsou spocˇteny takto: |{ti |v, c1 , c2 ∈ ti }| P (c1 ∧ c2 /v) = |{ti |v ∈ ti }| (ostatnı´ pravdeˇpodobnosti analogicky, ti oznacˇuje jednotlive´ VCC transakce)

´r KEG, 11. 11. 2004 – p.17 Seminaˇ

Relation Explorer

´r KEG, 11. 11. 2004 – p.18 Seminaˇ

Pracovnı´ data •

texty: popisy zemı´ z www.lonelyplanet.com

•

ontologie: cˇa´st TAPu + rozsˇ´ıˇrenı´ o termıńy pro oblast turismu

Proble´my pu˚sobı´ bohatost a obraznost jazyka v pouzˇityćh textech – tata´zˇ informace je vyja´drˇena co nejvıće ru˚zny´mi zpu˚soby

´r KEG, 11. 11. 2004 – p.19 Seminaˇ

Experiment s korpusem SemCor •

cˇa´st korpusu z Brownovy univerzity

•

koncepty i slovesa mapovańa na jejich synsety ve WordNetu

•

pouzˇili jsme jen cˇa´st SemCoru: novinove´ a odborne´ texty

•

zvolili jsme synsety Person, Organization, Location (+jejich synsety, ktere´ na neˇ bylo mozˇne´ zobecnit)

•

subjektivneˇ „cˇisteˇjsˇ´ı“ vy´sledky, zjevne´ rozdı´ly mezi novinovy´mi a odborny´mi texty

´r KEG, 11. 11. 2004 – p.20 Seminaˇ

Experiment s OpenDirectory 1. v sadeˇ strańek odkazovanyćh z Business sekce Open Directory jsme nasˇli vy´skyty termıńu˚, pod nimizˇ byly strańky v katalogu zarˇazeny 2. nalezli jsme slovesa, ktera´ se k teˇmto termıńu˚m syntakticky va´zˇ´ı cˇasteˇji, nezˇ k jiny´m termıńu˚m – indika´tory du˚lezˇite´ informace, tj. informacı´ o nabı´zenyćh produktech

´r KEG, 11. 11. 2004 – p.21 Seminaˇ

Extrakce informacı´ pomocı´ indika´toru˚ 3. pomocı´ neˇkolika nejlepsˇ´ıch indika´toru˚ jsme pak v testovacı´ sadeˇ strańek vyhledali veˇty, ktere´ by meˇly obsahovat informaci o produktech 4. v pru˚meˇru 80 % veˇt tuto informaci opravdu obsahovalo Podobny´m zpu˚sobem by bylo mozˇne´ vyuzˇ´ıt pro extrakci informacı´ i lexika´lnı´ polozˇky relacı´ v ontologii.

´r KEG, 11. 11. 2004 – p.22 Seminaˇ

THE END

Deˇkuji za pozornost

´r KEG, 11. 11. 2004 – p.23 Seminaˇ

Sémantický web a extrakce

Recommend Documents