Tartalomkezelési technológiák BME VIK TMIT Mérnök-informatikus BSc szak
Médiainformatika és -biztonság szakirány
BME VIK TMIT
1. Alapfogalmak
BME VIK TMIT
1.1 Adat, információ, tudás
• Adat: a valóság nem értelmezett (de értelmezhető) tükörképe Az adat nyers (feldolgozatlan) tény, ami valakinek vagy valaminek a jellemzéséhez hozzásegít.
• Információ: értelmezett adat • Tudás: az ember által kontextusba helyezett információ BME VIK TMIT
Adat + értelmezés Információ + kontextus
BME VIK TMIT
Tudás
Adat és információ
négy dimenzió: ismerni kell a tárgyat illetve jelenséget amelyre az adat vonatkozik - általában és konkrétan; + a tárgy bizonyos tulajdonságát, jellemzőjét - általában és konkrétan. Példa: „X autótípus az NCAP biztonsági teszten ****
minősítést ért el, általában tudni kell, hogy mi az autó, konkrétan tudni kell, hogy mi a mondatban említett autótípus; általában tudni kell, hogy mit értsünk az autók biztonságán, és konkrétan ismernünk szükséges az NCAP tesztet
BME VIK TMIT
Adatkezelés
• Adatkezelés: a nyers adatok tárolásának, lekérdezésének és manipulálásának feladatai. [adatmodellek, adatbázis-lekérdező és adatmanipulációs nyelvek,stb.]
BME VIK TMIT
Információmenedzsment
• Információmenedzsment: az információk előállításának, rendszerezésének, értékelésének és visszakeresésének feladatai.
BME VIK TMIT
Tudásmenedzsment • Tudásmenedzsment: a szervezeti tudástőke növelését célzó törekvések összessége. (A tudástőke a vállalati vagyon része. Három összetevője: piaci kapcsolatok tőkéje, strukturális tőke, emberi tőke. Az információmenedzsment megoldható kizárólag IT eszközökkel, a tudásmenedzsmentben kritikus az emberi szerep. A gyakorlatban a tudásmenedzsment egyik fontos eszköze az információmenedzsment.
BME VIK TMIT
2. Adatmodellek Az adatokat azért tároljuk és kezeljük, hogy később különböző célokra felhasználhassuk. A hatékony felhasználás érdekében nem „ömlesztve”, hanem szervezett módon célszerű az adatkezelést megoldani. Szükséges: • a tárolt adatok szerkezetét és „felhasználási szabályait” leíró modell (formalizált jelölésrendszerrel az adatok, adatkapcsolatok, és az azokon végrehajtható műveletek leírása). A leíró módszernek szabványosnak kell lennie.
BME VIK TMIT
A különböző mértékben szervezett informatikai adatkezelés különböző adatmodellezést tesz lehetővé.
BME VIK TMIT
2.1 Strukturált adatok Ha tárolás által meghatározott struktúra jól illeszkedik az adatok által hordozott információ struktúrájához: strukturált adatokról beszélünk. • A meglévő és a jövőben eltárolandó adatok struktúrája leírható egy állandó sémával (adatbázis esetén egy adatbázis-sémával). Példa: egy vállalat táblázatban tárolt ügyfél-információi, amelyek az ügyfelek azonosítóját, nevét és levelezési címét tartalmazzák egy relációs adatbázisban. Erről részletesen: az Adatbázisok c. tárgyban
BME VIK TMIT
2.2 Strukturálatlan adatok Strukturálatlan adatoknak olyan adatokat nevezünk, ahol az adatok által megjelenített információ értelmesen nem strukturálható, az adathalmaz egésze hordozza az információt. • Példa: pixelgrafikus kép, ahol az egész kép hordozza az információt (pl. egy ember arcképe), a képet alkotó biteket feldarabolni - tartalmilag - értelmetlen.
BME VIK TMIT
2.3 Félstrukturált adatok • Ha az adatok tárolása által meghatározott struktúra nem jól illeszkedik az adatok információtartalma által meghatározott struktúrához (az adatok értelméhez, azaz szemantikájához), félstrukturált (szemistrukturált) adatokról beszélünk. • Példa: HTML dokumentum közepén megjelenő táblázat. Itt az információ kinyeréséhez előbb az információ struktúráját is azonosítani kell (példánkban megtalálni a táblázatot és azonosítani az egyes oszlopok jelentését a .html állományban), hiszen azt a tárolás struktúrája nem határozza meg azt !
BME VIK TMIT
A félstrukturált adatokra alkalmazott megoldások elvileg nem tekinthetők adatmodellnek, mivel az adatokon végzett műveletek halmaza nincs egyértelműen definiálva. Ennek ellenére ezekre a kvázi-adatmodellekre is szokás az adatmodell szót használni. Gyakorlati magyarázata: a formális reprezentációk jellemzően csak egy konkrét műveleti halmazzal, egy konkrét adatmanipulációs nyelvvel együtt használhatók, így a valós alkalmazás során, adott közegben egy teljes értékű adatmodellel találkozunk.
BME VIK TMIT
3. Metaadatok Metaadat minden olyan adat, amely más adatokról szól, Definíció A metaadat: adat az adatról (Pl. katalógusadat) Szükségünk van kiegészítő adatokra ahhoz, hogy az adatokat kezelni és értelmezni tudjuk. Ezeket a kiegészítő adatokat nevezzük metaadatoknak. A metaadatok természetesen önmaguk is adatok, így róluk is lehetnek további metaadatok.
BME VIK TMIT
A metaadatok kategorizálása Megkülönböztetjük a – leíró és a – szemantikus metaadatokat.
BME VIK TMIT
A metaadatok kategorizálása Leíró metaadatok (descriptive metadata): olyan metaadatok, amelyek jelentése nem közvetlenül kapcsolódik a dokumentum jelentéséhez, hanem a dokumentum keletkezésének és/vagy módosításának a körülményeit írják le. Például: a dokumentum szerzője, a dokumentum hossza, az utolsó módosítás dátuma stb.
BME VIK TMIT
A metaadatok kategorizálása Szemantikus metaadat: olyan metaadat, amely a dokumentum jelentéséről hordoz információt. Például: a dokumentum jellegzetes kulcsszavai, témaköre. A szemantikus metaadatok főleg strukturálatlan és félstrukturált adatok esetében hasznosak, ahol az adatok információtartalma csak külön feldolgozás árán nyerhető ki az adatok reprezentációjából. Szemantikus metaadat megadása például könyvtári metaadat szabvány segítségével lehetséges (MARC és más könyvtári metaadat szabványok).
BME VIK TMIT
BME VIK TMIT
Metaadat szabványok • Dublin Core (http://dublincore.org) • IEEE-LOM (http://ltsc.ieee.org/wg12/) • MODS (www.loc.gov/standards/mods/) • EAD (http://www.loc.gov/ead/) • MPEG-7 (http://www.mpeg.org/)
BME VIK TMIT
3.1 Dublin Core (DC) A Dublin Core metaséma célja: az internetes forrásfeltárási munka megkönnyítése, a források bibliográfiai leírásának egységesítése, a hozzáférés és az egységes értelmezés szabványosítása. „minimálkonszenzus” 15 leíró egység: • title - cím, creator - alkotó, subject - tárgyszavas leírás, description - leírás, publisher - kiadó, contributor - hozzájáruló, date - dátum, type - típus, format - formátum, identifier egyedi azonosító, source- forrás, language – nyelv, relation – forráshivatkozás, coverage - téridő-helyzet, rights - jogok A Dublin Core szabvány specifikációja: Internet RFC 2413 (The Dublin Core Metadata for Simple Resource Discovery).
BME VIK TMIT
Széles körben elfogadott: • Elemek & jelentésük – Az elemek jelentésének definíciója (pl. mit jelent a ‘cím’, ‘alkotó’, stb.)
• Tartalom-szabályok – Útmutatók az elemek írásmódjához (mit szokás nagybetűvel írni, elemsorrend, stb.)
• Szintakszis – Gépi feldolgozáshoz szerkezeti konvenciók
BME VIK TMIT
Példák DC elemek megadására Elemnév: Title • Megnevezés: cím • Meghatározás: az információforrásnak adott név. • Magyarázat: a cím jellemzően az a megnevezés, amelyen az információforrás általában ismert. Elemnév: Date • Megnevezés: dátum • Meghatározás: az információforrás létezése során előforduló esemény időpontja (dátuma). • Magyarázat: jellemzően az információforrás létrehozásával vagy hozzáférhetővé tételével kapcsolatos dátum. Legjobb eljárásként az ISO 8601 [W3CDTF] szerint meghatározott, kódolt formájú közlés ajánlatos, amely (többek között) az ÉÉÉÉ-HH-NN (YYYY-MM-DD) formában tartalmazza a dátumot.
BME VIK TMIT
Példák DC elemek megadására Elemnév: Format • Megnevezés: formátum • Meghatározás: az információforrás fizikai vagy digitális megjelenési formája. •
Magyarázat: jellemzően az információforrás hordozójának típusát vagy terjedelmét tartalmazza. A formátum a szoftver, a hardver vagy más, az információforrás megjelenítéséhez, vagy működtetéséhez szükséges eszközök megnevezésére is használható. Példák a terjedelemre: méret és időtartam. Legjobb eljárásként ajánlatos szabályozott szótárban (például a számítógéppel olvasható adathordozó-típusokat tartalmazó internetes információhordozó-típusok jegyzékében [Internet Media Types = MIME]) lévő kifejezések közül választani.
Elemnév: Language • Megnevezés: nyelv • Meghatározás: az információforrás intellektuális tartalmának nyelve. •
Magyarázat: legjobb eljárásként ajánlatos az RFC 3066 [RFC3066] használata, amely az ISO 639 szabvánnyal [ISO639] együtt tartalmazza a két- vagy hárombetűs nyelvkódokat és a tetszőlegesen alkalmazható alkódokat. Példák: ‚en“ vagy ‚eng“ használata az angol nyelvre, ‚akk“ az akkádra, és ‚en-GB“ az Egyesült Királyságban használt angolra. BME VIK TMIT
DC minősítők (qualifiers) • a 15 DC elem pontosítására vagy kiterjesztésére – Elem-pontosítás – az ilyen minősítő szűkebb, specifikusabb értelmezést ad („korlátozottabb értelmezés”) – séma (Encoding Scheme) – sémát adunk meg az elemértékek interpretálásának segítéséhez (kontrollált szótár, formális megjegyzés, feldolgozási szabályok - parsing rules)
BME VIK TMIT
DC szabványok [RFC5013] http://www.ietf.org/rfc/rfc5013.txt [NISOZ3985] http://www.niso.org/standards/resources/Z39-852007.pdf
[ISO15836] http://www.niso.org/international/SC4/n515.pdf Magyar Szabvány: MSZ ISO 15836:2004 Dublin Core Metadata Initiative (http://dublincore.org/) [DCTERMS] http://dublincore.org/documents/dcmi-terms/
BME VIK TMIT
3.2 MPEG-7 A multimédia tartalmak szabványos leírására, szolgáló szabványos - deszkriptorokat, leíró sémákat, deszkriptorleíró nyelvet tartalmazó – keretendszer. • A tartalom lehet: állókép, grafika, 3D modell, audio, video, ezek kombinálásának forgatókönyve; arckifejezés, személyes jellemzők, stb. Szabványos • Leíró sémák (Description Schemes, DS) és leírók (Descriptors, D) • Leíró nyelv a sémadefiniáláshoz (Description Definition Language, DDL) • Séma a leírás kódolásához BME VIK TMIT
MPEG-7 MPEG-7 szabvány (ISO/IEC 15938:2001). MPEG: Moving Picture Experts Group Az MPEG-7 előírja, hogy az audiovizuális tartalom és a leírók elkülönítettek legyenek. A kettő között kapcsolatokat adhatunk meg. A metaadatok a médiafolyam időkódjához kapcsolhatók. (Pl. a zene és dalszöveg szinkronizálása) XML formátumú
BME VIK TMIT
BME VIK TMIT
29
MPEG-7 Visual • MPEG-7 Visual Description Tools: alap-szerkezetek és leírók vizuális jellemzők rögzítéséhez: Color, Texture, Shape, Motion, Localization, Face recognition
BME VIK TMIT
30
MPEG-7 Visual példák • Shape:
Boom up Dolly backward
Track right Dolly forward
Track left Boom down
• (Kamera) mozgás:
(3-D kamera-mozgás paraméterek) Tilt up Pan right
Pan left Roll BME VIK TMIT
Tilt down
31
MPEG-7 & MPEG-21 community • http://www.multimedia-metadata.info/
BME VIK TMIT
32
3.3 MDC Open Information Model Metaadat Koalíció (Meta Data Coalition - MDC). Célja: a metaadatok egységes kezelése. Nyílt információs modell (Open Information Model - OIM), komponens-alapú, újrahasznosítható alkalmazásfejlesztés támogatása. UML modellező nyelv alkalmazása.
BME VIK TMIT
3.4 Címkézés • Szóbeli előadás (prédikáció, rege, ének) – Tartalom/Szerkezet/Forma, teljes metakommunikáció
• Gutenberg galaxis (írás, képi megjelenítés) – Tartalom (nincs metakommunikáció) – Szerkezet fontossá válik – Forma (hordozza a szerkezetet, az emberi agy dolgozza fel)
• Digitális világ – tartalom – forma (WYSIWYG) – a szerkezet fontos, de részben rejtve maradhat
BME VIK TMIT
Tartalom – szerkezet – forma • Dokumentum:
szerkezet, tartalom, forma
– Ezek összefüggése bonyolult (is lehet).
• Szerkezet: a dokumentum milyen elemekből áll össze, ezeket milyen rendben kell összerakni (gondoljunk egy kerékpár összeszerelési segédletre) • Tartalom: ~ információ a célnak megfelelő formában (a kerékpár összeszerelési segédlet szavai és illusztrációi) • Forma: a tartalom elemeit hogyan jelenítjük meg? A szerkezetet és a formát gyakran összetévesztik (hiszen a szerkezetre gyakran formai elemekkel hívjuk fel a figyelmet.)
BME VIK TMIT
Címkéző nyelvek Egy címkéző nyelv (markup language) szöveges formátumot definiál, ahol a folyó szöveghez címkét (tag) rendelhetünk. A címkézés eredeti funkciója: a szöveg(részlet)hez kapcsolt címke azt mondja meg, milyen formázással akarjuk azt megjeleníteni.
BME VIK TMIT
Címkézett dokumentum részlet
A főszereplők: Rómeó & Júlia
BME VIK TMIT
HTML • 90-es évek eleje -> HTML a használható címkék halmaza előre definiált, nem változtatható • SGML-ből származik (Standard Generalized Markup Language, 1960-as évek, IBM, a tartalom és a szerkezet viszonyának leírására)
• Előnyök: – – – –
Egyszerű, jól olvasható/készíthető Szabvány, implementáció-független A hivatkozásokat kezeli (hypertext link) Sok, olcsó szoftver
• Hátrányok: – Forma orientált, nem a tartalomra koncentrál – Nem jól kereshető (túl sok találat - hiányzik a szerkezet) – Túlságosan leegyszerűsített BME VIK TMIT
XML XML – HTML összehasonlítás: Hasonlóságok • szöveges • Jelölőnyelv (tag-ek, elemek) • attribútumok • egymásba ágyazható elemek • SGML származékok Különbségek: • Az XML szintaxisa szigorú • Az XML-ben saját elemkészlet definiálható • A HTML a megjelenítésre, az XML a szerkezetre koncentrál
BME VIK TMIT
XML dokumentum ellenőrzése
Well formed: • Megfelel az XML szintaktikának • Szigorú szabályok az (Elemekre, Attribútumokra, Megjegyzésekre, Foglalt karakterekre, Feldolgozási utasításokra) • A parser „nem engedi át” a hibás állományt
Valid: • Megfelel a dokumentum sémának: csak a megadott elemeket használja az előre megadott sorrendben, összefüggésben. • Eszközei: DTD (régebben), XML Schema
BME VIK TMIT
XML Schema • • • • •
Elemek, attribútumok definiálása Egyszerű és komplex típusok definiálása Hivatkozások (kulcsok) kezelése rugalmas Általános adatséma leírására is alkalmas Lehet külső dokumentum is, de az XML dokumentum része is
• Példa: <xsd:schema xmlns:xsd=„http://www.w3.org/2001/XMLSchema”> <xsd:element name=„nyelv” minOccurs=„0” maxOccurs=„*”>
BME VIK TMIT
kapcsolat
prezentálás programozhatóság
böngéssz BME VIK TMIT
alakíts („programozz”)
4. Információ keresés és feltárás • Alapvető feladat: azért rendezünk, tárolunk adatokat, hogy valaki visszakeresse, használja. • Az INFORMÁCIÓ VISSZAKERESÉS feladata: a felhasználó információs igényének minél pontosabb és teljesebb kielégítése. • Nehézsége: a felhasználó információs igénye sokszor nem áll közvetlenül rendelkezésre (mert nem képes jól leképezni igényét az információs rendszer által megkövetelt módra).
BME VIK TMIT
4.1 Információ-visszakeresés (IR) • Különösen így van ez az Internet korában: sok ember („mindenki”) keres – speciális előképzettség nélkül, a modellek, a struktúrák, a konvenciók ismerete nélkül – hétköznapi logikával,
BME VIK TMIT
4.1.1 IR Alapfogalmak • Információ visszakeresés – information retrieval : félstrukturált és strukturálatlan adatok visszakeresése [Az adatok csak implicit módon hordoznak információt. A lekérdezést jellemzően szövegesen adjuk meg. probléma: A dokumentumok információtartalmának megragadása. A lekérdezés pontossága és egyértelműsége. ] • Trend: a félstrukturált és a strukturált adatok közös IR keretben legyenek kereshetők.
BME VIK TMIT
Adat és információ visszakeresés • Adat visszakeresés: keresés a dokumentum szintaktikai struktúrájában • Információ visszakeresés (IR) : a keresés tárgya a dokumentum által hordozott információ
BME VIK TMIT
A visszakeresési folyamat A keresési folyamat specifikus: adott adatforrás(ok)ra vonatkozóan értelmezhető. A keresési folyamat megkezdése előtt definiálni kell az adatforrás logikai nézetét. A (szöveges) adatforrás logikai nézetének definiálása: - az adatforráshoz tartozó dokumentumok megadása, - a szövegeken elvégezhető műveletek megadása, - a szövegmodell (pl. a dokumentumok struktúrája és, hogy mely elemei kereshetők) megadása.
BME VIK TMIT
felhasználói interfész
szöveg
felhasználói igény
szöveg műveletek a szövegen
felhasználói visszacsatolás
logikai nézet
lekérdezési eljárás
indexelés
adatbázis-kezelő
kérdés keresés visszakersett dokuk rangsorolás rangsorolt dokuk BME VIK TMIT
index
szöveges adatbázis
Relevancia • Az INFORMÁCIÓ VISSZAKERESÉS (IR) feladata: a felhasználó információs igényének minél pontosabb és teljesebb kielégítése. „minél pontosabb és teljesebb”: Az adott információs igényt kielégítő dokumentumok: releváns dokumentumok. • Az információ visszakeresés (IR) elvi feladata: a felhasználó számára releváns összes dokumentum visszakeresése. A relevancia mérésének problémája: kinyerhető-e az összes releváns dokumentum egy adott keresési feltétellel?
BME VIK TMIT
IR modellezés A hagyományos információ kereső rendszerek index kifejezéseket alkalmaznak. • INDEX: itt csak szöveges indexekkel foglalkozunk. Index nem csak szöveges kifejezés lehet, hanem bármilyen objektum: kép, hang, adatelem, stb. (az ezekből épített struktúrák is).
• Szöveges index elem bármelyik, a dokumentumhalmazban előforduló karakter-kombináció (szó, szócsoport, szám, …) lehet.
BME VIK TMIT
Index és szemantikai tartalom Kifejezhető-e a dokumentumok és a felhasználói igény szemantikája index kifejezések készletével? Válasz: Mindenképp van szemantikai veszteség. Az index kifejezések (szemantikailag) pontatlan terében a felhasználói igény és az egyes dokumentumok megfeleltethetőségi vizsgálata is pontatlan lesz.
BME VIK TMIT
Az IR rendszer teljesítményének mérése Mértékegységek: FEDÉS (recall, felidézés): A releváns dokumentumok mennyi százalékát adta vissza a rendszer? PONTOSSÁG (precision): A rendszer válaszának mennyi százaléka releváns?
BME VIK TMIT
Fedés (recall) A releváns dokumentumok halmaza: R A releváns dokumentumok száma |R| A válasz-halmazban levő releváns dokumentumok halmaza Ra A válaszban levő releváns dokumentumok száma |Ra|
Fedés BME VIK TMIT
Ra R
Pontosság (precision) A válasz-halmazban levő releváns dokumentumok halmaza Ra A válaszban levő releváns dokumentumok száma |Ra| A kérdésre az IR rendszer által visszaadott összes dokumentum halmaza: A A visszaadott dokumentumok száma |A|
Pontosság BME VIK TMIT
Ra A
Rangsorolás Rangsorolás (ranking): a relevancia szerinti rendezés.
BME VIK TMIT
A felhasználói igények különbözőek lehetnek, pl. a fedés maximalizálása, a pontosság maximalizálása valamilyen kompromisszum a fedés és a pontosság között.
BME VIK TMIT
4.1.2 IR modellek absztrakciója Ahhoz, hogy adott dokumentum információtartalmát (illetve az információtartalmat használó függvényeket - fedés, pontosság, relevancia pontszám) - pontosan értelmezni tudjuk, és információ visszakereső algoritmusokban fel tudjuk használni, szükségünk van egy formális modellre, amelyben az információtartalom, és a függvények leírhatók. Szükségünk van egy absztrakt modellre, a dokumentumok információtartalmának modellezésére. Az IR modell, a dokumentum logikai nézete (teljes szövegű, index kifejezés készlet) és a felhasználói feladat (keresés, böngészés) Ezek egy visszakereső rendszer ortogonális aspektusai. Habár egyes modellek alkalmasabbak bizonyos feladatokhoz, de általában többféle feladatra használhatók. BME VIK TMIT
Információ visszakereső rendszerek Különböztessük meg az • ad-hoc visszekeresést • a szűrést • és a böngészést. Ad-hoc visszakeresés: a felhasználó egy adott kérdésre vár választ a rendszertől. (Ilyen felhasználáskor a rendszer által tartalmazott dokumentumok halmaza közel állandó, míg a felhasználói kérdések folyamatosan változnak.) Szűrés (filtering): a felhasználói információ igény, a kérdés állandó, és az újonnan a rendszerbe kerülő dokumentumok közül szeretnénk azokat kiválasztani, amelyek relevánsak az adott kérdés szempontjából.
BME VIK TMIT
Információ visszakereső rendszerek Ad-hoc lekédezés, böngészés: pull típusú (a felhasználó aktívan kéri az információt a rendszertől) Szűrés: push típusú (a rendszer automatikusan futtat lekérdezést, az eredményt automatikusan eljuttatja a felhasználónak)
BME VIK TMIT
A lekérdezés módja • Kulcsszavas – Egyszavas – Logikai kifejezés kulcsszavakból – Kontextus kérdés – Természetes nyelvű • Mintailleszkedés (Pattern Matching) • Strukturált kérdések – Állandó struktúra – Hypertext – Hierarchikus struktúra • Lekérdezési protokollok
BME VIK TMIT
IR rendszerek típusai A dokumentumok logikai nézete
Felhasználói
aktivitás
BME VIK TMIT
keresés
Böngészés
Index kifejezés
Teljes szöveg
Teljes szöveg + struktúra
- klasszikus - elméleti - algebrai - valószinűségi
- klasszikus - elméleti - algebrai - valószinűségi
- strukturált
- egyszintű
- egyszintű - hypertext
- struktúra vezérelt - hypertext
IR rendszerek osztályozása ELMÉLETI KLASSZIKUS KERESÉS ad hoc szűrés
Bool vektor valószinűségi STRUKTURÁLT nem-átfedő listák proximal nodes
BÖNGÉSZÉS
BÖNGÉSZŐ egyszintű struktúravezérelt hypertext
BME VIK TMIT
fuzzy kiterjesztett Bool ALGEBRAI fuzzy kiterjesztett Bool VALÓSZINŰSÉGI fuzzy kiterjesztett Bool
IR modell: formálisan egy(D,Q,F,R(qi,dj)) négyes, ahol D a rendszerben levő dokumentumok logikai képének (reprezentációjának) a halmaza, Q a felhasználó információs igényei logikai nézeteinek (reprezentációjának) a halmaza (kérdések), F egy keretrendszer a dokumentum reprezentációk, kérdések és a köztük levő kapcsolat modellezésére, R(qi,dj) rangsoroló függvény, amely minden qiQ kérdés és djD dokumentumpárhoz egy valós számértéket rendel. A rangsoroló függvény egy adott qi kérdést tekintve egy rendezést határoz meg a rendszerben tárolt dokumentumok között. A keretrendszer definiálja a dokumentumok és a kérdések absztrakt reprezentációján elvégezhető műveleteket - így egy adatmodellt kapunk.
BME VIK TMIT
A klasszikus IR modellek feltételezik, hogy a dokumentumok (és információtartalmuk) leírhatók (jellemző) kulcsszavak halmazával. E kulcsszavakat index kifejezéseknek (index terms) hívjuk. Az index termek tipikusan főnevek, mert a főnevek által hordozott szemantikát könnyebb azonosítani. Adott dokumentumot leíró index termek közül nem mindegyik egyformán fontos az információtartalom leírásához. Fontosabb lehet pl. amelyik csak az adott dokumentumban fordul elő, és sehol máshol; más kifejezés kevésbé fontos, pl. mert sok más dokumentumban is előfordul, és így az adott kifejezés alapján a dokumentumot nem lehet megkülönböztetni a többitől. BME VIK TMIT
Az egyes index kifejezéseket fontosságuk szerint súlyozzuk, és a dokumentumokat az ezek súlyából alkotott vektorral reprezentáljuk. Legyen t a rendszerben szereplő összes index kifejezés száma, ki egy index kifejezés, K={k1, . . . , ki } az összes index kifejezés halmaza. Minden dj dokumentumban egy wi,j>0 súlyt rendelünk az index kifejezéshez, amely leírja az adott term fontosságát az adott dokumentumban. (Ha egy adott index term nem szerepel a dokumentumban, akkor wi,j=0.)
Minden dj dokumentumhoz hozzárendelünk egy d (w , w ,...w , ) index vektort. j 1, j 2, j t, j Legyen továbbá gi olyan függvény, amely bármely t dimenziós vektor esetén visszaadja a ki termhez rendelt súlyértéket. BME VIK TMIT
gi d j wi, j
Az IR rendszer lelke az invertált állomány (inverted file) vagy invertált lista (inverted list), ez az adatszerkezet minden index termhez tárolja, hogy mely dokumentumokban, melyik pozícióban fordul elő. (Eltérő pontossággal: a dokumentumtól karakterpozícióig.)
Gyorsítás: index, hash-tábla, stb. Példa:
1
4
8
13
19
Ez egy igen rövid szöveg. Szótár igen rövid szöveg BME VIK TMIT
doc1 dokumentum
Előfordulások
doc1:8,... doc1:13,... doc1:19,...
invertált állomány
A felhasználói igény pontosabb meghatározására új módszerek is szükségesek, ilyenek: • felhasználói profilok létrehozása és alkalmazása • adatszolgáltatással • vagy automatikusan
• Metakeresés • keresés metaadatokban • metakeresés több kereső terében
• kollaboratív szűrés alkalmazása
Cél: jobb fedés, jobb hatékonyság
BME VIK TMIT
TREC • Workshop-ok, http://trec.nist.gov • Szponzor: National Institute of Standards and Technology (NIST) és a DARPA • Különböző task-ok: adhoc, routing, question answering, web entry page • Gyűjtemények és kiértékelő szoftverek tesztelése • IR többnyelvű környezetben (nem-angol, spanyol és kínai tesztek is) • Tartalom-szerinti visszakeresés (CBR: Content Based Retrieval) – IR beszédanyagokban – IR videóanyagokban
BME VIK TMIT
Az eredményesség javítása • • • •
felhasználói relevancia visszacsatolás („profil”) logikai elemzés kontrollált szótár (tezaurusz) a hiperlink struktúra figyelembe vétele Ha egy dokumentumra sok link mutat: az oldal népszerű (jó minőségű információt tartalmaz ?). Ha két oldal közt sok a hivatkozás: a két oldal témája hasonló lehet. Ha több oldalra ugyanarról az oldalról történik hivatkozás, az ugyanezt jelentheti. -> Google Page Rank ötlet
BME VIK TMIT
4.1.6 Egy webkereső feladatai • Dokumentumgyűjtés – Indexelésre való kiválasztás
• Dokumentumok indexelése – ami a kiválasztott dokumentumok tartalmát reprezentálja – gyakran kétféle: teljes és szűkített (gyakori kereséshez)
• Keresés – a felhasználó információs igényének megfelelő reprezentálása – Keresési eljárás (retrieval process - search algorithms, ranking of web pages)
• Dokumentum és keresési feltétel (query) kezelés – Az eredmény megjelenítése – virtuális gyűjtemény (indexeléskor kizárt dokumentumok) vs. fizikai gyűjtemény (indexelés után kezelt dokumentumok)
BME VIK TMIT
Egy webkereső feladatai • • • •
Dokumentumgyűjtés Dokumentumok indexelése Keresés Dokumentum és keresési feltétel (query) kezelés
BME VIK TMIT
Dokumentumgyűjtés • Dokumentumgyűjtés = crawling the web • Crawler (webvadász) – Robot, spider, wanderer, walker, knowbot, web search agent – Program ami felméri, hogy új vagy módosított (updated) lapok, amiket indexelni kell, feltűntek-e a weben? – A helyi szerveren fut, kéréseket küld a távoli szervereknek
BME VIK TMIT
Webvadászat (1) • Crawling process – Adott URL készlettel kezd – Szélességben vagy mélységben (Breath-first or depth-first) – További URL-eket szed fel
• n*tízmillió lap naponta • több crawler – Redundancia – Web particionálás robot per partíció
BME VIK TMIT
Bejárási stratégiák: szélességi (breadth-first spider BFS), mélységi (depth-first spider DFS)
Lehet más stratégia is: pl. DEG (higher degree), RND (random),etc.
Webvadász alkalmazások: Heritrix, WebLech URL Spider, JSpider, WebSPHINX, Pysolitaire, The Spider Web Network Xoops Mod Team, Fetchgals, Where Spider, ASpider, Larbin, stb.
BME VIK TMIT
Webvadászat (2) • Naprakész? (Up-to-date?) – – – –
A passzív (non-submitted) lapokat <2 havonta indexelik A keresőmotorok tanulják a lapváltási gyakoriságot A népszerű lapokat (sok link vezet oda) gyakrabban Indexelt lapok • 1 nap - 2 hónap régi • érvénytelen linkek: 2-9%
• Robotszokások – A web szerver gyökerébe igyekszik tenni a fájlt – Jelöli a weblapokat, amiket nem kell indexelni – Kerüli a szervers/hely túlterhelést
BME VIK TMIT
Egy webkereső feladatai • • • •
Dokumentumgyűjtés Dokumentumok indexelése Keresés Dokumentum és keresési feltétel (query) kezelés
BME VIK TMIT
Dokumentumok indexelése • Dokumentum indexelés = mutatóállomány építés • Mutatóállományok: változatok lehetségesek – – – –
metaadat elemzés Kihagyások (névelők, elöljárók, számok, stb.) + toldalékok Pozíció adat (kifejezés-kereséshez) súlyok • tf x idf; • hosszú URL-ek leértékelése (nem fontosak)
– elárasztásvédelem
• hyperlink információ • Számolja a link népszerűségét • A szöveghorgonyt a forrás linkből veszi • Egy lap szerzői (authority) és központi (hub) értéke
BME VIK TMIT
Egy webkereső feladatai • • • •
Dokumentumgyűjtés Dokumentumok indexelése Keresés Dokumentum és keresési feltétel (query) kezelés
BME VIK TMIT
Keresés • Querying – – – – –
1 szó vagy minden szó legyen a visszakeresett oldalakon normalizálás (stop words removal, stemming, stb.) összetett query-k (dátum, struktúra, régió, stb.) Boolean kifejezések (advanced search) metaadat
• Rangsoroló (ranking) algoritmusok – Hasonlóságmérték alapján – webhely tekintély-elemzés • HITS (Hyperlink Induced Topic Search) • PageRank (Google)
BME VIK TMIT
Példa a normalizálás lépéseire • 1. Tokenizálás: a kifejezést felbontása szavakra. (határolók, szóköz, szótár) • 2. Kiterjesztés: rövidítések kezelése (teljes alakra hozása) • 3 . Stopword (tiltólistás szó) eltávolítása és szótövezés: pl. “the”, “a”, “is” (“an apple is dropped on the floor” “apple dropped floor”)
• 4. Egységesítés (standardizálás): “colour” “color” “worked” “work” Ez egyszerű példa, ennél összetettebb nyelvészeti és szabály-alapú előfeldolgozásokat is kidolgoztak. BME VIK TMIT
A web-linkek fontossága • Web link: viszony az összekapcsolt lapok között • A standard IR algoritmusok és a web IR között a fő különbség a web-linkek kihasználása • web linkek: bizonyosság és zaj forrásai
BME VIK TMIT
Algoritmusok • Query független oldalminőség – globális elemzés • PageRank (Google): a web véletlenszerű bejárását szimulálja és kiszámolja a lap pontszámát (“score”) – mint a lap elérésének valószínűségét
• Query függő oldalminőség – Helyi elemzés • HITS (Hyperlink Induced Topic Search): olyan témakérdésekre fókuszál, amire túl sok oldal a válasz – Minél több oldal jelöl egy oldalt, annál népszerűbb – A népszerűbb oldalak nagyobb valószínűséggel tartalmaznak releváns információt
BME VIK TMIT
Egy webkereső feladatai • • • •
Dokumentumgyűjtés Dokumentumok indexelése Keresés Dokumentum és keresési feltétel (query) kezelés
BME VIK TMIT
Dokumentum és keresési feltétel kezelés • Eredmények – – – – – –
Eredménylista általában 10-20 lapról klaszterezés URL, méret, dátum, kivonat, stb. Többféle válogatási lehetőség Opció: a leghasonlóbb dokumentumok Lekérdezés finomítása (Query refinement)
• Virtuális gyűjtemény vs. fizikai gyűjtemény – a dokumentum változhat az időben – más lehet, mint amit a motor indexelt – eltűnt linkek
BME VIK TMIT
DNS
parse
www
látogatott tartalom ?
fetch
URL szűrő
URL duplikátumok eliminálása
robots.txt látogatta már webvadász? („ujjnyomat”)
http … médiatípusok és linkek azonosítása BME VIK TMIT
URL készlet
kezdőkészletből (seed) indul
Metakeresés • A metakereső lekérdezéseket küld különböző keresőkhöz, Web katalógusokhoz, adatbázisokhoz • Gyűjti a válaszokat és egyesíti (Data fusion) • Cél: jobb fedés, jobb hatékonyság
BME VIK TMIT
Metakeresés • Működési fázisok – Keresőmotor választás • témafüggő, a múlt lekérdezései, hálózati forgalom, … – Dokumentum-választás • Mennyiségi szempontok – Összeillesztő (merging) algoritmus • rank pozíció, dokumentum visszakeresési pontérték, … alapján
BME VIK TMIT
BME VIK TMIT
BME VIK TMIT
BME VIK TMIT