Webtechnológiák Répási Tibor egyetemi tanársegéd
Webes keresrendszerek
A keresés lehetsége egyids a hipertext ötlettel. Keresés a weben: –
Miskolc Egyetem,Gépészmérnöki kar, Infomatikai és Villamosmérnöki Tanszékcsoport (IVM)
–
–
Általános Informatikai Tanszék
Adatbányászat: – – –
–
nagy adatmennyiségek strukturált adatok rejtett összefüggések felderítése
Szövegbányászat: –
adatbányászat kiterjesztése strukturálatlan adatokra osztályozási, klaszterezési feladatok
Web-bányászat: –
többnyire szöveg linkek a szövegben
Iroda: Inf.Int. 108. Tel: 2101
Webes keresrendszerek
nagyon sok oldal nagyon gyakori változás sok új oldal
adatbázis jelleg keresés igénye hipertext tartalom:
Nagyon nagy adatmennyiség:
szövegbányászat kiterjesztése a web, szemi-strukturált, hipertext-rendszerére
Webes keresrendszerek
Keresmotorok feladatai: – – – – – – – –
feldolgozandó dokumentumok kijelölése dokumentumok letöltése dokumentumok szóhalmazának elállítása dokumentumok metaadatainak elállítása dokumentumok hatákony tárolása keresési adatszótárak nyilvántartása keresésfeldolgozó megvalósítása keresési megaadatok feldolgozása
Webes keresrendszerek
–
Minségi mérszámok: – – –
–
pontosság (precision): releváns válaszok aránya válasz dokumentumaihoz felidézés (recall): kiválaszott dokumentumok aránya a releváns dokumentumokhoz tartalomegyezés (exhaustivity): kiválasztott dokumentumok és a kereskifejezés egyezésének mértke kifejezer (power): a leíró kulcsszavak szelektivitásának és hosszának aránya
Webes keresrendszerek
Webes keresrendszerek
A keresmotor felhasználói igényei: – – –
–
széleskörség: minden fontos weboldalt megtaláhasson naprakészség: az index legyen aktuális, kövesse nyomon a web változásait rangsorolás: a lekérdezés által kiválasztott dokumentumok legyenek rangsorolhatóak relevanciájuk szerint megjelenítés: eredmények megjelenítése legyen lényegre tör, informatív és használható
– –
eliminálhatóság (eliminalibity): irreleváns dokumentumok felismerhetsége érthetség (clarity): a kulcsszavak közérthetsége megjósolhatóság (predictability): keresési eredmények elrejelezhetsége
Webrobot - begyjt
Hármas szerep – – –
a web kapcsolatrendszerének felderítése dokumentumok letöltése indexelésre indexelt dokumentumok ismételt letöltése
Teljes letöltés lehetetlen, a web mérete végtelennek tekinthet. A robotok korlátos erforrásokat igényelnek, mködésüket szabályozni kell.
Webrobot - begyjt
Szabályozó elvek: – – – –
Újralátogatási elv: – – – – –
az index naprakészsége múlik rajta nagyobb index --> több újralátogatás több újralátogatás --> kevesebb új dokumentum az újralátogatási arány igen érzékeny paramétere a keresrendszernek újralátogatás aging algoritmus alapján:
uniform: minden dokumentum egyformán öregszik arányos: dokumentumonként hangolt újralátogatási gyakoriság
kiválasztási elv: –
kiválasztási elv (selection policy): mely dokumentumok töltsük le? újralátogatási elv (re-visit policy): melyik dokumentumot kell újra letölteni? udvariassági elv (politeness policy): milyen hatást gyakorolhat a robot a webre? párhuzamos feldolgozási elv (parallelization policy): párhuzamosan dolgozó robotok összehangolása
Webrobot - begyjt
Webrobot - begyjt
–
minden dokumentum tartalmaz linkeket minden link újabb dokumentumot tár fel Melyeket érdemes letölteni? Header-bl kiderül a tartalom típusa,
–
Headerek letöltésének csökkentésére
–
relevancia alapú kiválasztás
– –
nem szöveges tartalmat nem érdemes vizsgáljuk az URL-t
Webrobot - begyjt
Udvariassági elv: – – –
a robot sokkal gyorsabban olvas, mint az ember a robot nagyon „kíváncsi” két alapelv:
a robot ne okozzon jelentsen nagyobb terhelést egy webszerveren, mint egy ember a weblap gazdájának legyen lehetsége a robotot befolyásolni (robots.txt, HTML fejrész)
Webrobot - begyjt
Párhuzamos feldolgozási elv: – – – –
Webrobot
dinamikus hozzárendelés statikus hozzárendelés
Harvester típusú (aratórobot): –
több robot --> nagyobb letöltési teljesítmény elosztott robotok --> elosztott hálózati terhelés többes letöltés veszélye a letöltend URL-eket hozzá kell rendelni a robotokhoz:
–
Kivonatolás: – –
Indexstruktúra: – –
kulcsszavak kinyerése szelektivitás biztosítása
az oldalon talált (in-site) linkeket is bejárja az off-site linkeket kigyjti késbbi feldolgozásra
Indexelés
Technikák: –
Szó és kifejezés alapú
–
–
szavak, kifejezések és azok pozícióját rögzíti az index
Szöveg és metaadat alapú
indexek hatékony tárolása kulcsszavak hozzárendelése dokumentumokhoz
Dokumentum kivonatok tárolása.
inkrementálisan darabolja az URL-t www.uni-miskolc.hu/uni/dept/facilties/ www.uni-miskolc.hu/uni/dept/ www.uni-miskolc.hu/uni/ www.uni-miskolc.hu/
Crawler típusú (kúszórobot): –
Indexelés
nem csak az adott URL-t tölti le:
a dokumentum szavak halmaza, csak gyakoriság alapú index metaadatok: témakör (tagging), dokumentumszekciópozíció, formátuminformációk
Tartalom és struktúra alapú
a szöveg mellett a kapcsolatrendszer is számít
Keresés feldolgozás
Keresési szavakra illeszked dokumentumok kiválasztása: – – – – – –
A „mély háló” (deep web): – – –
Kiválasztott dokumentumok rendezése Google PageRank: –
közvetlenül el nem érhet dokumentumok sziget dokumentumok lekérdezés eredményeként elállított dokumentumok dinamikusan (AJAX alkalmazásban) elállított dokumentumok
Hagyományos robot számára elérhetetlen! Keresrendszerekben nem kereshet!
számítása:
–
kulcsszavak gyakorisága hivatkozások (linkek) fontossága (PR) felkeresési gyakoriság (hitrate)
véletlen szörföz modell
Tucatnyi technika
–
logikai kapcsolatok stopszavak szrése szemantikus kapcsolatok szinonimák kezelése gépelési hibák felismerése finomítható keresés
Deep web – a mély háló
Rangsorolás
kiválaszt egy lapot követheti a lap valamelyik linkjét, vagy új lapra ugorhat
A Google
kb. 20-25 milliárd indexelt dokumentum (2006) Googleplex: – – – – – –
komplex hardver és szoftver környezet olcsó PC-k (száz-) ezreibl áll többszörösen redundáns, hierarchikus felépítés állományok tárolása 3-6 szoros redundancia operációs rendszere: testreszabott linux webszervere: GWS – egy testreszabott apache
A Google
Indexelés: –
dokumentumok és azok metaadatai URL és dokumentumok összerendelési adatai szavak és metaadataik szavak elforulása
– –
Modellje a véletlen barangoló (random surfer) modell:
Rangsorolás: –
PageRank: –
hibrid szó és dokumentum alapú:
A Google
kulcsszó gyakoriság felkeresési gyakoriság PageRank
–
Egy oldal PageRank-je annak valószínsége, hogy a véletlen barangoló megtalálja.
–
Számítása, regressziós képlet alapján
Keresoptimalizálás
Célok: – –
keres jól indexelje jó PageRank-et kapjon
Elny: – – – – –
Keywords meta-mez szöveges tartalom kevés kimutató link (csak lényegesek!) rámutató linkek Felhasználói érdekldés
kiválaszt egy URL-t véletlenszeren, linkeken lépeget tovább, véletlen számú (alfa faktor) lépés után abba hagyja és új dokumentumról indul újra.
az oldalra mutató linkek PageRank-kel súlyozott összege, az oldalról máshova mutató linkek összege.
Keresoptimalizálás
Hátrány: – – – – – –
szövegtartalom képekben (pl. menü gombok, flash menü) tartalom beágyazott objektumokban (applet, flash, activeX, stb.) AJAX és minden asszinkron tartalom lekérdezés alapú hozzáférés Capcha ezek együttese!
Ajánlott irodalom
Tikk Domonkos (szerk.) Szövegbányászat, Typotex kiadó, 2007