Osztályozási rendszerek, rendszerek információkereső nyelvek y II Darányi Sándor SZTE BTK Könyvtártudományi T Tanszék ék
Alkalmazási területek
Automatikus indexelés
Automatikus y osztályozás
Információkeresés
Információ vizualizálás
Az elöadás tartalma 1. 2. 3. 4. 5.
Információkeresés a gyakorlatban Automatikus indexelés Automatikus osztályozás Vektorteres információkeresés A mély web és jelenségei (idöben változó fogalmi térképek) 6 Az 6. A információ i f á ió lá láttatása á
Nem részletezett problémák •
•
• •
Powers off ten (“A tizes P i h á hatványai”, i” video): id ) miröl i öl van szó? ó? Az A univerzum mérete 1035 m, az emberi nagyságrend a 100 m, a kvantumfizika 10-8 m körül, a mérhetöség határa 10-17 m, az extrapolációk határa 10-30 m: ott “van/történik” valami. 10-8 m-ig tart a fogalmi, a nyelv, a kommunikáció, de lehet, hogy “alulról” beszüremlenek más hatások abba az idegrendszerbe, g , amely y agyi gy tevékenységünkért felelös Információelmélet (kódtábla; jelsor; nyelv vs. program) Æ IR, IV (vö. Lem: Az Úr hangja, hangja kb 78 old old.:: “nem nem keresni kell, kell hanem kiszürni a feleslegeset”) Nyelvábrázolás, NLP: milyen matematikai objektumok mire képesek? Weblap, markup (HTML, XML), szabványok, adatcsereformátumok, metaadatok digitális könyvtárak (Greenstone), metaadatok, (Greenstone) globális katalogizálás (OCLC) Æ más tantárgyakban
1 Információkeresés a gyakorlatban 1. • A könyvtár legfontosabb információkeresési eszközei – Bibliográfiák – Katalógusok – Indexelö és referáló kiadványok – Adatbázisok – Nyilvántartások y – Keresömotorok és webkatalógusok
Bibliográfiák • H Hagyományosan á a kö könyvtár tá llegfontosabb f t bb keresöeszköze • Az A irodalmat i d l t lleíró í ó lilisták ták rendezési d é i elve: l – – – – – – –
tárgykör szerzö ö nyelv idötartam (periódus, (periódus korszak) különgyüjtemények kiadók dokumentumtípus
Az OSZK adatbázisai (példák) • A MNB adatbázisai d tbá i i • Katalógusok: – – – – – – –
NEKTÀR À (OSZK online katalógus) MOKKA (Magyar Országos Közös Katalógus) H Hungarika ik adatbázisok d tbá i k AV kötelespéldány EPA (Elektronikus Periodika Archivum) IKER (Magyar Idöszaki Kiadványok Repertóriuma) NPA (Nemzeti Periodika Adatbázis)
Az OSZK adatbázisai folyt (példák) • Gyüjtemények: G üjt é k – Törzsgyüjtemény (Könyvek / idöszaki kiadványok) – Különgyüjtemények Külö üjt é k (ké (kéziratok, i t k ki kisnyomtatványok, t t á k térképek, szinháztörténet, zenemüvek stb.) – Bibliotheca Eruditionis (régi magyarországi nyomtatványok és olvasmányok) – E-Corvinák – Magyar Elektronikus Könyvtár (MEK) – Magyar és Nemzetközi Cikkek (MANCI)
Katalógusok • Két célközönség – Könyvtárosoknak – Olvasóknak
• Mi és miért – – – –
”Ismert” mü vagy hivatkozás elöjegyzése Mije van a könyvtárnak X-röl X röl vagy Y tárgykörben Irodalomtípusok, müfajok Merre találom ezt vagy azt
Közös (osztott) katalógusok • Olyan katalógusok, amelyek több könyvtár állományának adatait tartalmazzák. Pl.: – A központi könyvtár és/vagy fiókjai, különgyüjteményei egy rendszerben – Pl. Libris (lényegében a svéd egyetemi és föiskolai könyvtárak közös adatbázisa) – Pl. Pl BURK (közmüvelödési (kö ü lödé i kö könyvtárak tá k kö közös ö katalógusa) – Pl. Pl Bibliotek.se Bibliotek se (a Libris és a BURK együtt)
Z39 50 szabvány Z39.50 • Z39.50 = szabványos adatátviteli protokoll. Jóvoltából egyszerre lehet keresni több különbözö adatbázisban egyazon képernyöröl, képernyöröl noha különbözö rendszerek vannak a háttérben. Ehhez az adatbázis oldalán az kell, hogy gy egy gy szerveren fusson a p protokoll,, a felhasználó gépén pedig a megfelelö keresöprogram (kliens). • A kliens programok különböznek, ezért azonos eredmény is megjelenhet a képernyön másként, ez a futtatott klienstöl függ • Letölthetö az OSZK honlapjáról
OPAC • Online Public Access Catalogues = kb. nyilvános, közvetlen hozzáférésü katalógusok – Az egyes könyvtárak nyilvántartásai saját anyagukról. Gyakran része egy nagyobb integrált könyvtári programcsomagnak, k amelyben l b van köl kölcsönzési ö é i (h (helyi l i és táv-), beszerzési, cirkulációs, statisztikai modul is
• Katalógustípusok (példa) – Szerzöi – Tárgy Tá – Idörendi
Indexelö és referáló kiadványok • Típusai: – Tárgyköri, szakterületi – Földrajzi, regionális – Idö szerint korlátozott – Dokumentumtípus szerint korlátozott, stb.
Webes keresöszolgáltatások • Olyan számítógépes programok, amelyek begyüjtik és indexelik a honlapokat • Lehetövé teszik ilyen lapok teljes szövegü keresését • A világháló keresésének manapság ”legbarátságosabb”, legbarátságosabb , legnépszerübb formája (vö. Webcrawler, Altavista, Yahoo, Google stb.).
Webes keresöszolgáltatások folyt • Három külön részböl állnak: – Crawler – egyik oldalról a másikra mászó program, amely az oldalakról továbbmutató linkek e mentén e té halad a ad ((vö. ö pó pók,, csús csúszómászó) ó ás ó) – Indexelö – elemzi a honlapokat, információt csapat p ki belölük,, amelyet y automatikus indexelésre és keresésre használnak – Keresömodul – felhasználói felület,, amelynek y funkcióival a szolgáltatás indexében keresni lehet
Felhasználói felület • Lehetövé teszi-e teszi e specifikus adattípusok keresését, pl. szerzö, cím, dátum, dokumentumtípus, URL, betüszó stb • Milyen keresöszintaxist enged meg a program? Boole-operátorok, Boole operátorok, szintakitikai operátor, csonkolás stb. Tartozik-e e hozzá egyszerü vagy bonyolult • Tartozik felhasználói interface? Lehet-e e vele keresni különbözö speciális • Lehet indexekben? • Milyen rangsorolási / rendezési algoritmust használ?
Webkatalógusok (directory) • E Ember-alkotta b lk tt keresöeszköz k ö kö • A katalogizálás valamilyen formája, hi hierarchikusan hik ffelépítve lé ít • A felhasználó akár egy szót kereshet, akár bö é h t (k böngészhet (kattinthat) tti th t) egy iismereti ti hierarchiában • Sokkal S kk l szükebb ük bb szakterületre, kt ül t mint i t a ””szokásos” ká ” keresöszolgáltatások • Ilyen Il kkatalógust t ló t ffenntartani t t i drága dá é és b bonyolult l lt • Példák: Infomine és Open Directory Project
Infomine GUI
Open Directory Project GUI
Speciális keresöszolgáltatások • • • • • •
Google Scholar Scirus Windows Live Academic Hírek Térképek Video, stb.
Google Scholar GUI
Scirus GUI
Metakeresök • Olyan szerver, amely elküldi a keresökérdést egy sor keresögépnek illetve katalógusnak, majd törli a duplumokat és rangsorolja az eredményt • Pl. Dogpile, Metacrawler, Metafind, Mamma Metasearch • Asztali változat: Copernic • Az eredmények többféle módon szemléltethetök • Az eredményy csoportokra p bontható,, pl. p klaszterálással: Clusty • Megj. – metakereséssel mindig csak részleges találati li tát kapunk, listát k k mivel i l az algoritmus l it a kö közös ö ttalálati lál ti lilista t elsö 50 vagy 100 tételét fogja csak bemutatni
Dogpile GUI
Metacrawler GUI
Metafind GUI
Metasearch GUI
Információtechnológia • Technika a különbözö adatformátumok gy j , tárolására,, feldolgozására, g , begyüjtésére, publikálására és prezentálására
Információs rendszer • Az adatkezelés, a.m. begyüjtés, g , tárolás és terítés müveleteit feldolgozás, végzö rendszer • Manapság a számítógépes információs rendszerbe beleértjük mind a müszaki f felszerelést, é mind az emberi y g tevékenységet
Kapcsolat adatbázissal • Képernyö (felhasználói felület, user interface) – Azok a képek és felkínált funkcióik, amelyek lehetövé teszik, hogy számítógépes adatbázisokkal oda-vissza kapcsolatot tartsunk – Így Í nézhetnek é h t k ki: ki • Szöveg- / parancsalapú • Menüalapú M ü l ú • Formanyomtatvány (kérdöív) • Web interface • Kombinációik
Kapcsolat adatbázissal folyt • Keresönyelv – Az a nyelv vagy parancskészlet, amelyet a géppel való kommunikációra használunk. Lehet pl. kitöltendö kérdöív (egyszerü vagy összetett), vagy a természetes nyelvhez közeli módon teszi fel a kérdést – A webalapú interface értelmezi, mit akarhatott a felhasználó mit jelenthet a kérdés felhasználó, – Példák: UB könyvtár adatbázisok
Parancsok • Rendesen a következök lehetnek: – – – – – – –
A keresés parancsa (Search, Find, keress stb) Boole- (logikai) -operátorok Szintaktikai (közelségi) operátorok Csonkolás Maszkolás Mezökeresés (kitüntetett mezök) Szükítési lehetöségek (idö, nyelv, dok típus, stb)
Boole- (logikai) operátorok Boole •
•
•
NEM – Kutya (ÉS) NEM macska = minden kutyát, egy macskát sem = csak kutyáról szóló dokumentumok ÉS – Kutya ÉS macska = mindkettöt tartalmazó dokumentumok (is-is) VAGY – Kutya VAGY macska = vagy egyiket, vagy a másikat tartalmazó dokumentumok
A logikai operátorok müveleti sorrendje • Az a sorrend, amelyben az adatbáziskezelö program a keresökérdés operátorait végrehajtja. Független attól, milyen sorrendben írjuk le öket, zárójelezéssel alakítjuk ki a müveleti sorrendet • Mint a matematikában • NEM > ÉS > VAGY – Volvo VAGY Saab ÉS export – (Volvo VAGY Saab) ÉS export
Szintaktikai (közelségi) operátorok • A szavak közti viszonyt fejezik ki: – X ADJ Y – a két szó közvetlenül egymást követi. X ADJn Y n db szót enged meg közöttük. A szavak sorrendje számít. – NEAR – A szavaknak k k egymáshoz á h kö közell kkellll áll állniuk, i k a sorrendjük mellékes. A táv megadható NEARn formában ld fent formában, fent. – FIELD – A szó megadott mezöben szerepeljen. – SAME – A szó ugyanabban az értelemben szerepeljen (lehet ugyanabban a mezöben is).
Csonkolás és maszkolás • Csonkolás: teljes szóalak helyett pl a tövére vagy nagyobb darabjaira kérdezünk. Jobbról vagy balról. Pl $kutya $ Æ pulikutya, agárkutya, kutya vs kutya$ Æ kutya, kutyakaja, kutyasampon stb. • A maszkolás egy vagy több betüt ill. szót takar ki. Pl g#z#ke Æ Gizike, gözeke • A csonkolás ill maszkolás jele rendszerenként (host/vendor vs adatbázis) változik: * # ? % &, ld a mindenkori kézikönyvet.
Mezökeresés • A rekord adatelemekböl (mezökböl) áll, amelyeket azonosító jelöl • A legtöbb l több adatbázis d tbá i elöre lö meghatározza h tá a kereshetö k h tö mezöket és sorrendjüket (akár az egész bibliográfiai tételben akár a kulcsszavakra szükitve stb) tételben, • A kulcsszavak a ”tartalmas” adatelemekböl származnak (cím,, referátum, (c e e á u , tárgyszó, á gys ó, ill egy egyre e gyakrabban gya abba teljes e jes szöveg). • Probléma: zajj – hogyan gy mérjük j a relevanciát? • Információkeresés hatékonyságának mérése a vektormodellnél
A keresökérdés szükítése szükítése, bövítése • A keresökérdés a felhasználói probléma szurrogátuma • A keresöprofil ennek lefordítása egy bizonyos rendszer parancsnyelvére y – Sok rendszer, sok profil
• A legtöbb g adatbázisban lehetöség g van arra, hogy a keresökérdést szükítsük vagy bövítsük: – Idö szerint: tartamot keresünk, akár évben, akár a részeiben kifejezve – Nyelv szerint – Dokumentumtípus szerint: cikkek cikkek, könyvek könyvek, konferenciakiadványok stb
Szemantikai problémák a keresési folyamat során • A 60-as évek angol autóira keresek • Az ”angol autók" ÉS 1960-as évek nem dob ki olyan t lál t k t amelyekben találatokat, l kb a ffentiti kif kifejezések j é k nem szerepelnek, pl Bentley és 1962. • A Bentley angol márka (hiponimia) • 1962 az 1960-as évek része (meronimia)
A keresökérdés szükítése, bövítése folyt • Tartalom és terjedelem fordított aránya: minél kevesebb ismérv írja le a dokumentumot, annál több van belöle az osztályban (adatbázisban) • A bövítéssel nemcsak több találatot, hanem több releváns találatot szeretnénk kapni a keresökérdésre • Hátrány: a több találattal több lesz a zaj is, nemcsak a releváns e e á s találatok a á a o sszáma á a nö ö • Vagyis a találati halmaz számossága a találatok pontossága p g rovására nö • Interaktiv bövítés: a felhasználó javaslatot kap a rendszertöl, milyen keresöszavakat (indexkifejezéseket) használjon, ezekböl választ
Keresés és böngészés K Keresés é – – – –
Precíz kérdés kérdés, válaszok a relevancia rangsora szerint Releváns válaszok korlátozott számban Kellenek hozzá jól definiált fogalmak (”egzakt tudományok”) Átfogó keresés lehetösége megvan
Böngészés – – – –
Újj területek megismerésére g Még hiányoznak a szójegyzékböl a megfelelö keresöszavak Àtfogó keresésre esetlegesen alkalmas A hiányosan hiá d definiált fi iált ún ú ””puha h ttudományokban”, d á kb ” szakterületeken kt ül t k müködik jól
Keresöstratégiák • • • • • •
”Kurta & piszkos” (briefsearch, quick & dirty) ”Építökocka” (building blocks) ”Egymást követö nézetek” (successive facets) ”Kályha-módszer” (most specific fact) ”Lavina-módszer” (citation pearl growing) ”Pontos megfelelés” (exact match)
”Kurta Kurta & piszkos” piszkos • Viszonylag rövid és egyszerü keresés, amely nem akar többet, mint: – Meghatározott g számú tételt – Legalább sejtse, mit hozna a témakeresés (mennyi van, amit nem kap meg) – Ötleteket a további mazsolázáshoz
”Épitökocka” Épitökocka • Felosztja a keresökérdést alkotóelemeire. Utána az egyes kulcsszavakhoz szinonímákat keres, amelyeket zárójelben VAGY-gyal köt össze Példa: ”Azt mondják, az amfetamin terápiásan használható hiperaktív gyerekeknek és fiataloknak nyugtatóul. Van-e erröl tudományos közelemény? közelemény?”
Amphetamine (1967) [+] • • • •
Use For Amphetamine (dl-) (1973) Amphetamine Sulfate (1973) B Benzedrine d i (1973) – Broader Terms • • • • • •
Adrenergic Drugs [+] Appetite Depressing Drugs [+] CNS Stimulating Drugs [+] Dopamine Agonists [+] S Sympathomimetic th i ti A Amines i [ ] [+] Vasoconstrictor Drugs [+] – Narrower Terms » Dextroamphetamine » Methamphetamine » Related Terms » Phenethylamines
Minimal Brain Disorders (1973) Use Instead Attention Deficit Disorder with Hyperactivity • Attention Deficit Disorder with Hyperactivity (2001) – Use For ADHD (2001) Minimal Brain Disorders (1973) – Broader Terms – Attention Deficit Disorder [+] • Related Terms – – – – – –
Attention Span Distractibility Hyperkinesis Impulsiveness Mental Disorders [+] Oppositional Defiant Disorder
PsycINFO: Age Index • • • • • • • • • • • •
adolescence (13 (13-17 17 yrs) adulthood (18 yrs & older) aged (65 yrs & older) childhood (birth-12 mo) infancy (2-23 mo) middle age (40-64 yrs) neonatal (birth-1 mo) preschool age (2-5 (2 5 yrs) school age (6-12 yrs) thirties (30-39 (30 39 yrs) very old (85 yrs & older) young adulthood (18-29 yrs)
”Egymást Egymást követö nézetek” nézetek • Kulcsszavanként építjük fel a keresést, majd a kérdések sorrendjében kombináljuk a találati halmazokat, a ”legjobb” stratégiát így választjuk ki – Autó #1. 89045 – Volvo #2. 12400 – Üzemanyag#3. 2402 felhasználás #1 AND #2 AND #3 27
”Kályha Kályha-módszer módszer” • A legszükebben releváns kulcsszóval kezdünk, fokozatosan szélesítjük a kérdést, a keresöszavakat VAGY-gyal kombinálva, mintha a kályhától: – – – –
Volvo Volvo VAGY Saab Volvo VAGY Saab VAGY buszok Volvo VAGY Saab VAGY buszok VAGY teherautók
”Lavina Lavina-módszer módszer” • Olyan ismert tételböl indulunk ki, amelyröl tudjuk, hogy releváns. – – – – – –
Mely kulcsszavak használhatók? Írt a szerzö mást is? Melyik folyóiratban publikálta? Van a dokumentumnak osztályozási jelzete? Melyik folyóirat referálja a dokumentumomat? Idézik-e mások is a dokumentumomat?
”Pontos Pontos megfelelés” megfelelés • Pontos kérdésre pontos választ keres. g y • Ez a legkönnyebb? – ”Koppenhágában Koppenhágában 2001 2001-ben ben tartottak a cukorbetegségröl egy konferenciát. Megvan a kiadvány y a könyvtárban?” y
2 Automatikus indexelés 2. • Csak szövegessel foglalkozunk, képre: vö. ICONCLASS vs szimmetria [következö kép, lazításnak]) g eljárás, j mely y a dokumentumokból • Algoritmikus indexelésre alkalmas kifejezéseket választ ki. Az információkereséssel (information retrieval, IR) kapcsolatban is használatos – Algoritmus: g p parancsok véges g sorozata, amely y bemenö adatokból (input) kimenö adatokat (output) készít – Számítógépes program, amely a fenti algoritmusra épül és amely az indexelést végzi
52
Indexelés tapétacsoporttal A tapétacsoportok kutatása a szimmetria, közelebbröl a csoportelmélet feladata. A természetben és a kultúrában számos olyan forma van, amelyeket objektumok indexelésére lehet használni.
Bevezetés folyt • Miért használják? • Gyorsabb a kézi indexelésnél. Nagy teljes szövegü állományoknál a kézi indexelés gyakorlatilag amúgy is lehetetlen • Konzisztens, K i t kö következetes tk t eredmények d é k • Az állomány ”elöszervezésével” javíthatja az IR hatékonyságát – Egy keresökérdés vonatkozásában, milyen jó a rendszertöl kapott válasz?
54
Index • Legyen D = {d1, d2, …, dN} az adatállomány (adatbázis) • Információkeresés elött (de osztályozás elött is) D szövegszavaiból g indexet kell készíteni. Ezeket a szavakat választjuk ki gép segítségével • Az index fontos adatstruktúra, kell a gyors kereséshez. A keresés ugyanis az indexben történik, nem a dokumentumban • Formája gyakran az ún invertált file – Azért invertált invertált, mert a szót elörevetjük elörevetjük, utána jönnek az azonosítók
55
Index folyt Szövegszavak (morfológiai változatokkal)
Dokumentumok (D)
Index (normalizálva/szótövezve)
kutya
macska
…kutya…
d5
…macska…
d80
56
Az indexelés lépései •
Lexikai elemzés – ebben a folyamatban a bemenö adatokat szimbólumokká alakítjuk át •
•
D dokumentumait egyetlen hosszú karaktersorozatnak tekintjük, amelyben kis- és nagybetük, számok, írásjelek stb fordulnak elö. A p program g ebböl az ”adatfolyamból” y emel ki nagyobb, egységesített darabokat, amelyek a bemenö adatsor részeit jelképezik. Ezeknek a szimbólumoknak a halmazát nevezzük lehetséges indexkifejezéseknek Ellentétük a letiltott szavak jegyzéke (stopwords). Pl töltelékszavak (vö szógyakorisági ábra)
57
Indexelés szógyakoriság alapján • Már az 1950-es években gondoltak rá, hogy a szövegszavak gyakorisága a dokumentumokban alkalmas a megkülönböztetésükre külö bö t té ük • Luhn, H. (1958). The automatic creation of literature abstracts. • A Zipf-törvény szellemében • De a magyar ragozó nyelv, nekünk viszont a szótövek kellenek
Szótövezés normalizálás Szótövezés, •
Szótövezés (lemmatizálás): levágom a ragokat, az elötagokat, mint pl az igekötö (ha útban van) – Olyan Olyan, mint a csonkolás – Karóra? Honnan tudja, hogy elérte már a szótövet?
• Normalizálás: a betüzési, betüzési helyesírási variánsokat hozza egységes alakra • Mindkettönek d e ö e a keresést e esés sszélesítö, é es ö, bö bövítö ö hatása a ása van a
Egy szó szétválasztó képességének mérése • A 40-es évek végén Claude Shannon (Bell Labs) kitalált egy mértéket arra, mennyi információ van egy szignálban Æ információs entrópia • Ennek a képletnek egy módosításával mérni lehet, mennyire jellemzö egy-egy egy egy indexkifejezés különbözö szakterületekre (mennyire használható a megkülönböztetésükre) • Teljes szövegböl készült indexre alkalmazva ezt, kiderül, hogy a letiltott szavak kapják a legalacsonyabb értéket, vagyis ezek éppen azért lettek kitiltva, mert nem osztályképzök
Az indexelés folyamata • Hogy az osztályozandó dokumentumok indexelése hatékony legyen, ismernünk kell a szótár méretét és változatosságát g van: • Két lehetöségünk – Megpróbálhatunk több rokon kifejezést egy közös fogalom vagy ”szupertárgyszó” alá rendelni – Kiszürhetjük azokat a szavakat, amelyekben nincs elég ”megkülönböztetö erö” az adott osztályok vonatkozásában tk á áb
Szemantikai mélyindexelés (latent semantic indexing, LSI) •
•
• • •
Statisztikai S i ik i eljárás, ljá á alapja l j az a megfigyelés, fi lé h hogy a h hasonlóan ló használt szavak jelentése is hasonló (vö. Wittgenstein: ”meaning is use”, ”a jelentés a használat módjában rejlik”) Sokváltozós statisztikai módszerekkel a hasonló szövegkörnyezetben használt szavakat ”rávetíthetjük” egyetlen reprezentánsra amelyet a vonatkozó kifejezések fölöttes fogalmával reprezentánsra, azonos. Ez a reprezentáns a háttérváltozó, egy mesterséges új koordinátatengely A eredeti Az d ti vektorteret kt t t egy egyszerübb übb szerkezetü k tü új vektortérré kt té é alakítja át Ennek a módszercsaládnak sok tagja gj van,, p pl a faktoranalízis vagy gy a (kb) sajátértékfelbontás (singular value decomposition, SVD) Így a dokumentumokat nem az eredeti kifejezésekkel, hanem fölöttes fogalmaikkal indexelhetjük
Szemantikai mélyindexelés folyt •
A hasonló elöfordulási mintázatú (kontextusú) indexkifejezéseket egy közös reprezentánsra vetíti
foci BEK FIFA
futball
(Svéd) tárgyszavak osztályozása szemantikai mélyindexeléssel • • • •
• • • • •
Stresshantering St h t i Hjärtinfarkt Hjä ti f kt Rehabilitering R h bilit i Li Livsstil til Li Livskvalitet k lit t Hjärtrehabilitering Könsskillnader_sjukvård Djurförsök Försöksdjur Hypertoni Högt_blodtryck Blodtryck Mongolism Medicinsk_genetik Genetik_medicin Utvecklingsstörda Psykiskt y _utvecklingsstörda g Downs_syndrom y Förståndshandikappade pp Medicin_historia Miljöförstöring Hälsorisker Gifter Miljögifter Hjärt-kärlsjukdomar Kolesterol Blodfett Hjärtsjukdomar Kärlsjukdomar Blodfettsänkande_behandling Fingerborgsblomma Digitalis_purpurea Medicinalväxter UV t ål i S UV-strålning Solbränna lb ä Ult Ultraviolett_strålning i l tt t ål i S Solskyddsmedel l k dd d lC Cancer Hudcancer Malignt_melanom Melanom Sårbehandling Fotvård Skavsår
Az indexkifejezések szürése • A másik lehetöség, hogy kiszürjük azokat a szavakat, amelyek ”túlságosan” ott vannak két osztályban, és ezért nem alkalmasak arra arra, hogy megkülönböztessék öket • Kérdés: ”Ha csak erröl az egy szóról tudjuk, hogy elöfordul a szövegben, szövegben mennyire következtethetünk belöle arra, melyik osztályba tartozik a dokumentum?” • Ezt úgy tudhatjuk ud a ju meg, eg, ha a megmérjük, eg é jü , mennyi e y információ van egy osztályban vele vagy nélküle • Ezt a különbséget g ”információs többletnek” ((information gain, IG) hívják és a Shannon-féle entrópiából vezethetö le • A letiltott szavak IG értéke alacsony
Dokumentumok automatikus indexelése – meghatározás • A dokumentum és a leíró jelzetek (dokumentumoknál: tárgyszavak) között hoz létre egy leképezést gy D egy gy dokumentum-halmaz • Legyen • Legyen V az indexkifejezések szótára Ψ : D x V → [0, [0 1] • Ez a vektorteres IR modell alapja is (vö bináris mátrix)
Vektormodell • Egy adatbázis minden dokumentumát ndimenziós vektornak tekintjük ahol n a tárgyszavak száma a szótárban • dj = ((w1j, w2j, …, wnj) • Mindegyik wij súly a ti -dik tárgyszó jelentését méri a dj -dik dik dokumentumban • Tf·idf-módszerek (mindjárt jönnek)
Mátrix példa meccs
gyöztes
futball
vesztes
bíró
d1
0,8
0,5
0,0
0,7
0,6
d2
0,1 ,
0,1 ,
0,7 ,
0,1 ,
0,2 ,
d3
0,3
0,3
0,5
0,4
0,6
d4
0,8
0,9
0,4
0,5
0,8
Tárgyszavak súlyozása •
• • •
•
A pl 0,5 értéket a relációban (a függvényben) (d1 gyöztes) (d1, ö t ) --> 0,5 05 a tárgyszó súlyának nevezzük a dokumentumban Ez az érték annál nagyobb nagyobb, minél erösebb a kapcsolat a dokumentum és a tárgyszó között Egyszerü súlyozás: 0 vagy 1 (bináris) A tárgyszavak súlyozását gyakran a szó elöfordulásának gyakoriságára építjük (tf-idf = term frequency-inverse document frequency) q y) A tf-idf mérték régóta használatos az automatikus indexelésben, és két elv kombinálására épül: – Egy E tá tárgyszó ó akkor kk jjelent l t valamit l it a dokumentumban, d k t b h ha sokszor fordul elö – Egy gy tárgyszó gy akkor jjelent valamit egy gy adatbázisban, ha kevés dokumentumban fordul elö (tartalom-terjedelem fordított aránya)
3 Automatikus osztályozás 3. • Felhasználási területek – – – – – – –
Spam szürés Szerzö azonosítása Keresési eredmények klaszterálása Felhasználói visszajelzések csoportosítása Dokumentumtípus (müfaj) azonosítása Képek indexelése …
Az automatikus osztályozás célja • Géppel úgy csoportokba osztani az anyagot, mintha gyakorlott szakember osztályozta volna • Az eredményt hasonlítjuk össze, nem a hozzá vezetö utat • Szellemi tevékenység modellezése matematikával (újabban fizikával is)
Automatikus osztályozás • A gépi tanulás egyik alkalmazási területe • Az eljárás röviden: az osztályozó (classifier) nevü algoritmust l it t arra tanítjuk, t ítj k h hogy ffelismerje li j egy bi bizonyos tartalom-fajta és az annak megfelelö osztály közötti kapcsolatot • Az osztályozó algoritmus ”emlékezetébe vési” az osztályok os á yo közötti ö ö különbségeket, ü ö bsége e , pa paraméterkombinációk a é e o b ác ó formájában tárolja, és a dokumentum hovatartozását a dokumentum meg az osztály tartalmi mintázatának egybevetésével dönti el • Az ebböl a döntésböl származó matematikai kifejezést emiatt i tt döntési dö té i függvénynek fü é k nevezzük ük
Automatikus osztályozás folyt •
•
A döntési dö é i fü függvény é pll olyan l geometriai határvonalként szemléltethetö, amelyet paraméter-értékek egy halmaza határoz meg Egy másik népszerü megoldás megoldás, ha valószínüségi döntési függvényt használunk, ami megmondja mennyire várható, megmondja, várható hogy egy dokumentum egy bizonyos osztályba tartozik
Osztályozó algoritmusok fajtái • A geometriai válfaj a dokumentumokat a (néha nagyon) sokdimenziós tér pontjaiként modellezi, és olyan alapvetö mértékek segítségével osztályozza öket öket, mint a távolság meg a szög Példa: segédvektoros g módszerek ((support pp vector machines, SVM) • A valószínüségi válfaj olyan fogalmakat használ, mint az esemény meg az esély, s az osztályba tartozás korábbi adatai d t i ezek k alapján l já titippelili meg egy leendö l dö osztályozás tál á valószínüségét Példa: Bayes Bayes-féle féle valószínüségi osztályozók
Segédvektoros eljárás (SVM) • Különösen sikerült geometriai eljárás, amely két ötletre épít: – Keressünk olyan döntési függvényt, függvényt amely annyira szétválasztja az osztályokat, amennyire lehetséges – Másoljuk át a pontokat egy nagyobb térbe, amelyben ez a (lineáris) szétválasztásuk könnyebben ábrázolható
Automatikus osztályozás Hilbert Hilbert-térben térben •
•
Hilbert-tér: Hilb é a kkvantummechanika h ik elméletének l él é k ffejlesztésére jl é é D David id Hilbert és Neumann János által bevezetett új, potenciálisan végtelen dimenziós vektortér, amelyben a részecskék viselkedése tanulmányozható Az SVM, egy új regressziós ill osztályozási eljárás, a Hilbert-térben éri el el, hogy a dokumentumok maximálisan elkülönüljenek az adatokban megnyilvánuló osztályokba
Két példa az SVM SVM-re re • Szép képek • Kisfilm
Dokumentumok automatikus osztályozása – meghatározás • Legyen D egy dokumentum-halmaz • Legyen C egy kategória (osztály)-halmaz igazi osztályozás egy függvény függvény, • Az ”igazi” Φ : D x C → {0, 1} • Az A automatikus t tik osztályozás tál á gépi é i ttanulást lá t alkalmaz Φ becslésére • A becsült Φ jele: Φ’
Milyen lehet az osztályba sorolás? • “Egycimkés”: egy dokumentum csak egy osztályba tartozik / kap besorolást • ”Többcimkés”: a dokumentum több osztályba tartozhat • Bináris osztályozás: a kategóriák halmazának, C-nek C nek csak két eleme van, pl {-1, { 1, +1} 1} – A spam-szürés pl bináris osztályozásból indul ki
A gépi tanulás szakaszai • Φ megtanulásához a dokumentumhalmazt három részre osztjuk: egy gyakorló- csoportra (training set), egy, az eredmények finomítására szolgáló csoportra (validation set), meg egy tesztcsoportra (test set) • A gyakorló gyakorló-csoporton csoporton alakítja ki, ki tanulja meg az algoritmus a Φ’ függvényt • A második ásod csopo csoporton o Φ Φ’ ja javítása, ása, op optimalizálása a á ása következik paraméterek finomhangolásával • Majd j a teszten ellenörizzük Φ’ hatásfokát ((kézzel elöosztályozott kontroll-anyagon)
A gépi tanulás típusai • Tanulás példa/támpont alapján (supervised learning): abból indul ki, hogy a rendszernek része a már kész oktatási anyag, anyag illetve hogy a rendszer visszajelzést (”osztályzatot”) kap a munkája minöségéröl • Tanulás példa/támpont nélkül (unsupervised learning): kiindulási támpont és/vagy visszajelzés nélkül kell tanulni – csak a dokumentumok közötti hasonlóságok a kategóriák és a hozzárendelés (osztályozás) alapja. Klaszterálásnak (clustering) is hívják.
Osztályozási módszerek típusai • Példa-alapú (”lusta”) módszerek, pl a k-adik szomszéd módszere (k-nearest neighbour). Vannak kézzel osztályozott dokumentumaink dokumentumaink, hogy a gépi osztályozás eredményével összehasonlítsuk • Paraméter Paraméter-vezérelt vezérelt módszerek: a tanulási halmazból a módszer egy készletnyi paramétert tanul meg, utána a példákra már nincs szükség. Példák: Bayesvalósznínüségi módszerek, neurális hálók, segédvektoros módszerek (SVM)
“Felturbózás” (boosting) • Viszonylag új módszer, nagyon jó teljesítménymutatókkal szövegosztályozáshoz • Az A ún. ú gyenge osztályozási tál á i fü függvény, é Φ1 gyárt á t egy elözetes osztályozást a dokumentumhalmazunkra • Aztán egy új osztályozási függvény függvény, Φ2 olyan dokumentumokat keres, amelyeket Φ1 korábban rosszul osztályozott os á yo o – hibát bá keres e es és kijavítja ja ja • Majd Φ3 Φ2 hibáit javítja ki, stb. • Az Φ1, Φ2, …, Φn osztályozási függvények lineáris kombinációja egyfajta “szuperfüggvényt” csinál belölük
Az eredmények értékelése • Az osztályozási y függvény gg y kiértékeléséhez a dokumentumok teszthalmazát használjuk, ezekkel hasonlítjuk össze az eredményt • Pontosság (accuracy): a helyesen osztályozott tételek aránya • Pontosság (precision) és teljesség (recall) – IR fogalmak is • Az ún. F-mérték a pontosságot meg a teljességet kombinálja paramétersúlyozással egy közös mértékké • Mikroátlagolás Mik á l lá (microaveraging), ( i i ) makroátlagolás k ál lá (macroaveraging)
4 Vektorteres információkeresés 4. • • •
• • • •
Sokféle S kfél modell d ll van, ez az egyik ik llegnépszerübb é übb (G (Gerald ld S Salton l 1975) Szervesen illeszkedik az automatikus indexelés és osztályozás y gondolatköréhez (vö. értékelés) A szójelentést (szótárat) geometriai hellyé változtatja a sokdimenziós térben térben, a szemantikai hasonlóságot távolsággá ugyanott Erre a helyre helyvektor mutat, a kérdés helyére is, hasonlóságuk mértéke a pontok közti távolság A dokumentumok mint pontok koordinátái a vektor elemei; pl az indexkifejezések gyakoriságai A tér dimenziószámát az adatbázis indexelésére használt egyedi szóalakok száma határozza meg “Kiemelt” (markup) nyersanyagon (pl HTML) is müködik Æ web keresök
Vektortér modell Vektortér-modell
A vektorteres IR modell elönyei •
•
•
•
A Boole-algebrás kereséssel csak annyit kérdezhetünk, ”megfelel-e a keresökép egy bizonyos dokumentumnak?” Egyezik-e dokumentumnak? Egyezik e vele? A vektorteres modellben a hasonlóságot geometriai eszközökkel mérni tudjuk, tudjuk és azt is is, hogy mennyire. mennyire A súlyozás a mérték A do dokumentumokat u e u o a so sorba ba tudjuk udju rendezni e de a hasonlóságuk mértéke szerint (mindig az adott keresökérdésre) Az indexkifejezések egymás közti (szótári) viszonyai geometriával tanulmányozhatók
Vektorteres információkeresés összegzés • •
• •
• • •
• •
Érettségi É tt é i tétel tét l A dokumentumokat mátrixban írjuk le, pl az oszlopvektorok dokumentumok, a sorvektorok indexkifejezések A súlyozás lehet bináris vagy gyakorisági (pl tfidf) Dokumentum és kérdés (keresökép, (keresökép keresöprofil) mint helyvektor, amely pontra mutat (létezik irányvektor is!) Mind a dokumentum, mind a kérdés tehát pont a térben Hasonlóságukat a távolságuk fejezi ki A keresökérdés vektorához hasonló dokumentumvektorokat közelségük alapján rangsoroljuk (vö. relevancia) Két pont közelségét a helyvektoraik által bezárt szög cosinusa adja meg Kérdés, mennyire modellezi a kérdést a vektor
Az iinformációkeresés A f á iók é hatékonysága • A keresés
hatékonyságának mérésére legismertebb mérték a teljesség vs pontosság (minden keresökérdésre elöröl kell kezdeni) Teljesség: |Ra|/|R| Pontosság: |Ra|/|A| • Szöveges adatbázisban egymással fordítottan arányosak
5 A mély web és jelenségei 5. •
•
Fogalma: a “mély” (láthatatlan, rejtett) web a világháló tartalmának azt a részét jelenti, amelyet a nagy keresögépek vagy nem indexelnek, vagy nemigen találnak meg. Ellentéte a “felszini” web. A kereskedelmi keresögépek g p csak a statikus,, bekötött oldalakat dolgozzák fel, ezért a fától nem látják az erdöt Èrdekességek: – 400 400-550-szer 550 nagyobb bb a látható láth tó webnél, b él a legnagyobb l bb a havi h i növekedési ö k dé i üteme. – 2000-ben becslés szerint kb 550 milliárd egyedi dokumentumot tartalmazott, szemben a látható web kb 1 milliárd dokumentumával. dokumentumával – A Google típusú felszini keresögépek a weben elérhetö tartalomnak csak kb 0.03% -át keresik. – A mély él web b tartalmának t t l á k legalább l lább 95 % %-a szabadon b d hozzáférhetö. h áfé h tö – A tartalom mélysége miatt 50 %-kal nagyobb a látogatottsága, mint a látható webnek. – A mély él web b tartalmának t t l á k több mint i t a fele f l szaktudományi kt d á i adatbázisokban d tbá i kb van
Mély web folyt • Felszini (keresögépek) vs mély (adatbázisok a weben): két réteg – Felszini: A keresögép crawlere csak a honlapot gyüjti be és indexeli – Mély: Az adatbázisok indexeihez fér hozzá valós idöben, párhuzamos kereséssel
• Vö ugyanilyen volt a hostok (DIALOG, (DIALOG ESA, ESA DIMDI, stb.) adatbázisainak lekérdezése párhuzamosan • Példák: US DoE OSTI, Science.gov, WorldWideScience org WorldWideScience.org – Részletesen: Price-Sherman ppt (csatolva)
Az indexelés mint társasjáték • • • • •
Social tagging/Folksonomy = folk + taxonomy p mozgalom g a web indexelésére Népi Példák: Delicious, Flickr Tag = jelzet, jelzet cimke Az osztályok átrendezödö súlypontjai miatt dinamikus osztályozás (vö. (vö Salton, Salton SMART SMART, cluster centroid) • Egyfajta statisztikus osztályozás: sokak véleménye játszik bele, mi minek minösül
Del icio us GUI Del.icio.us
Egy oldal különbözö indexelése
Flickr GUI
6 Az információ láttatása 6. • Célja, hogy látvány/grafika segítségével mutassa meg az adatokban rejlö struktúrákat (szabályosságokat, mintákat) y • Kapcsolódik az automatikus osztályozáshoz • Friss példa: Visalix (Xerox)
Az információ láttatása folyt • K Keletkezö l tk ö K K+F F szakterület, kt ül t meglehetösen l h tö ö összevissza i még, benne ember-számítógép kapcsolat (humancomputer p interaction,, HCI), ), grafikus g arculattervezés,, információmenedzsment, információarchitektúra • Meghatározás (Lengler & Eppler 2007): ”Vizualizálási módszeren ód olyan l rendszerszerü, d ü szabályalapú, bál l ú kül külsö, ö permanens grafikus ábrázolást értünk, amely az információ o ác ó á átlátását, á ásá , megértését egé ésé és kommunikálását o u á ásá elösegíti” • Az IV módszerek is osztályozhatók • Az IV módszerek a komplexitást (a tartalom folytonosságát) térbeli/idöbeli szerkezetekkel fejezik ki
Taxonómia: The periodic table of visualization methods (Lengler & Eppler 2007)
Egy másik taxonómia: VisualComplexity
Egy harmadik: Atlas of Cyberspace
Térbeli szerkezet: ”karfioltér” karfioltér
Idöbeli szerkezet: ”jelzetfelhök” jelzetfelhök (tag clouds)
A láttatás szerepe folyt • Az IV vizuális metaforákat használ (pl a periodikus tábla is hasonlat) • A képen ké láth látható tó szituációt it á iót valami l i iismerthez th h hasonlítva, lít a láttatás megkönnyíti a megértését (a szituáció itt az entitások közötti relációk összessége, pl része-egésze reláció)) • Példa: iratok a dossziéban, dosszié az iratszekrényben, iratszekrény a részlegben, részleg a könyvtárban, stb • Egy jó metafora összetett tartalmat fejez ki egyszerüen. Pl egy metrótérkép vagy egy történet hatékony templátok (elöképek). (elöképek) • A képi metafora funkciója kettös: – Elhelyezi az információt, hogy szervezze és strukturálja, – A metafora révén hangsúlyozza a kulcsmozzanatokat.
Vizuális metaforák • Kutatási kulcsprobléma: hogyan lehet kifejezö, hatékony vizuális metaforákat találni, amelyek elvont tartalmat képre fordítanak le • A metafora az ösvény, amely a már értettöl a megértendöhöz vezet • Típusok (Eppler – Burkhard 2004) – Természeti jelenségek (hegy, fa, szakadék, gyémánt, tornádó, vízesés, tüzhányó, folyó, barlang stb) – Ember-alkotta tárgyak (mérleg, létra, kerék, út, híd, ernyö, vödör, inga trójai faló stb) inga, – Cselekedetek (hegymászás, séta, halászat, vadászat, aratás, stb) – Fogalmak (család, béke, káosz, fraktál, fenntarthatóság stb)
”A A tárgyalások hídja” hídja
”A A piac mint lépcsösor lépcsösor”
Néhány GUI alternativa (LIVA projekt, 2005-2007) • Három metafora és a kapcsolódó módszerek: – Térkép, térképészet Æ tematikus domborzat – Fogalmi tér Æ 3-d információcsillagászat, dokumentumgalaxisok – Rugó Æ dokumentumok és keresöképek eloszlása vonzás-taszítás eröegyensúlya alapján (forcedirected placement, FDP); fejlödö osztályozási tér ( karfiotér ) (”karfiotér”)
• Mind térszerkezet, de az FDP idöbeli is
Domborzat 1 Tematikus táj: Burk Oh [[=Sociala frågor g och socialpolitik] 544 x 8928, SVD k=100, QC σ =0 0.5,1 5 1-2 2. fötengely fötengely, összes dokumentum
Domborzat 2
Domborzat 3
Domborzat 4
Dokumentumgalaxis 1: BURK Ph [= Träteknik och träindustri] 432 x 1251 1251, az elsö 200 dokumentum (szemantikai mélyindexelés alapján) Burk Ph 432x1251, 1st 200 docs in x=F1, y=F2
Burk Ph 432x1251, 1st 200 docs in x=F3, y=F4
Burk Ph 432x1251, 1st 200 docs in x=F1+F2, y=F3+F4
Dokumentumgalaxis 2: az elsö 200 dokumentum 16 különbözö fogalmi altérben
Eröegyensúly (FDP) •Rugó, g vonzás-taszítás, erös magerö taszítás nélkül – fizikai erötípusok, amelyek a dokumentumok csoportosulásának (az osztályozás önszervezödésének) modellje lehetnek •Pl. nöjön a taszítás a dokumentum hosszával, a vonzás a relevanciával arányosan á •Az a legjobb elrendezés, ahol az energiatartalom minimális (a lejtö alján) •Pl. az IR folyamat egyes lépcsöit láttathatja, integrálja az IV-et az IR-rel
”Karfioltér” Karfioltér 1: keresöképek
•
1. kérdés: visualisation colour graphics
•
2. kérdés: 3D surface graphics –
Két dokumentum köszös a két kérés között
”Karfioltér” Karfioltér 2: keresöképek •
3 ké 3. kérdés: dé agents t –
A 3. kérdésre az elsö 50 dok halmaza nem fed át az 1-2. kérdés találati halmazaival, amelyek megtartják eredeti d ti szerkezetüket, k tük t míg í az új halmaz tölük elkülönül
.
•
4. kérdés: collaborative agent visualisation –
Mivel ez erösen kapcsolódik mind a 3. (agents), mind az 1. (visualisation colour graphics) kereséshez, kereséshez a találati halmazaik automatikusan összekapcsolódnak, balról jobbra ebben a sorrendben: agents, collaborative agent g visualisation, visualisation colour graphics, és 3D surface graphics.
A LIVA GUI prototípus
IV összegzés • Tárgyszó- és dokumentum-szigetek, fogalmi csillagképek: magasabbfokú morfológiák • Az információrobbanás is metafora, az ösrobbanásé. A tágulás (vö. mély web) kö tk téb d következtében dokumentumgalaxisok k t l i k kkeletkeznek l tk k és rendezödnek át, amelyeket térképezni kell • A fogalmi f l i di dinamika ik ((nyelvfejlödés) l f jlödé ) problémája: blé áj változó osztályozások • A nagyságrendek á d ké és a kkommunikáció iká ió ké kérdése: dé felfog-e a nyelv mindent, fogalmakkal minden leírható e? leírható-e?