Az információkeresés általános menete és alapjai, keresőnyelvek, logikai műveletek Az online információkereső rendszerekben a felhasználó interaktív kapcsolatot teremthet a számítógép segítségével a dokumentumleírások, olykor a digitális vagy digitalizált dokumentumok állományával, melyeket adatbázisokba szervezve tárolnak. A könyvtári információkeresés ezekben játszódik le. Információkereső nyelv: A hatékony információkeresés egyik eszköze az információkereső nyelv. Azt a nyelvet, amely alkalmas az információk és az információkeresési kérdések leírására, információkereső nyelvnek nevezzük (IKNY). IKNY típusai: - aszerint, hogy nyelvi kifejezést, vagy más kódolást használnak-e a jelöléshez megkülönböztetünk: természetes nyelven alapuló IKNY-ek, mesterséges nyelven alapuló IKNY-ek; - szabályozottságuk szerint: előre szabályozott (prekoordinált), előre nem szabályozott (postkoordinált). - az előre szabályozott természetes nyelvű IKNY-ek előre kialakított tárgyszórendszert alkotnak, a fogalmakat kötött szótárba rendezik. A szótár sok esetben böngészhető az adatbázis tárgyszóindexeiben.Típusaik: -mellérendelő, -hierarchikus, -szemantikai IKNY.
Alapfogalmak: Keresőkérdés: A kereső személy vagy felhasználó által keresett információ természetes nyelven való megfogalmazása. Keresőprofil vagy keresési stratégia: A keresési feladat kifejezése a parancsnyelv és az információkereső nyelv eszközeivel. A keresést megelőzően kell kialakítani. Keresőszavak: A keresési stratégia építőelemei. Nem nyelvtani értelemben vett szavak, több szóból álló kifejezések is lehetnek keresőszavak. Keresőkifejezés: A keresési stratégia egy-egy lépése, a keresőparancs tárgya. Az egyes operátorokkal összekapcsolt keresőszavak összessége, bizonyos kritériumoknak eleget tévő rekordok kikeresése céljából. Legegyszerűbb formája egyetlen keresőszó. A keresési stratégia a keresőkifejezések egymást követő soraiból tevődik össze. Relevancia: A keresőkifejezésben vagy keresési stratégiában megfogalmazott kritériumoknak megfelelő rekordok a releváns rekordok halmaza. 1
Találatok: A releváns rekordok halmazai. Ezek jelentik a keresés végeredményét. Formátum: A találati rekordoknak azokaz adatmezői, amelyeket online megjelenítéskor vagy letöltéskor kiíratunk, illetve offline nyomtatással kézhez kapunk. Az operátorok használata: Kereséskor ritkán használunk egyetlen keresőszót, túl sok találatot eredményezne, jellemzőbb ezek összekapcsolása különböző operátorokkal: 1. Logikai operátorok Boole-operátorok AND : Két v. több halmaz (pl. A és B) közös elemeinek (metszetének) meghatározására szolgál. Használatakor a sorrend közömbös, tehát A AND B megfelel B AND A-nak.
OR : Két v. több halmaz összes elemének (uniójának) meghatározására szolgál. A sorrend itt is tetszőleges, A OR B ugyan azt az eredményt adja, mint B OR A.
NOT : Az egyik halmaz elemeiből kizárja a másik halmaz elemeit. Használata körültekintést igényel, mert könnyen eredményezheti releváns rekordok elvesztését. A sorrend is lényeges, A NOT B más eredményt ad, mint B NOT A.
2
Közelségi operátorok: NEAR (mellett), BEFORE (előtt), AFTER (után) és WITH (együtt) Ezek az operátorok a keresőszavak egymáshoz viszonyított helyzetét szabályozzák. Segítségükkel megszabhatjuk, hogy a keresőszavak egymás mellett vagy egymás közelében helyezkedjenek el a találatokban. Az operátorok nevét általában kötelezően nagybetűvel kell írni. Boole-operátorok segítségével - elvileg - végtelen számú keresőszót összekapcsolhatunk. Bonyolultabb keresőkifejezések építéséhez használhatunk zárójelezést is. Ne építsünk azonban túl bonyolult keresőkifejezést! Míg az AND, OR, NOT operátorok szinte minden rendszerben használhatók, a NEAR, BEFORE, AFTER, WITH és mások csak a rendszerek egy részében. 2. Helyzeti operátorok Keresőszavak egymáshoz viszonyított előfordulásának meghatározására szolgálnak. A és B ebben a sorrendben szomszédos szavak (W) A és B tetszés szerinti sorrendben szomszédos szavak (N) A és B ebben a sorrendben, közöttük max. n darab szó (nW) A és B tetszés szerinti sorrendben, közöttük max. n darab szó (nN) 3. Relációs perátorok Numerikus adatok (pl. dátum stb.) esetén alkalmazhatóak. Pl. : = ; < ; > ; => vagy >= ; =< vagy <=; - (tól-ig) ; stb.
Csonkolás, maszkolás Számos rendszer lehetőséget biztosít a keresőszavak csonkolására (a keresőszó végének, elejének elhagyása) vagy a keresőszavak maszkolására (a keresőszó belsejében alkalmazható helyettesítő karakter). Csonkolás: A rendszerek általában többféle csonkolást tesznek lehetővé. Főbb típusok: 1. tetszőleges számú karakter helyettesítésére szolgál (?, *, % stb.) 2. csonkolás megadott határok között (# : 0 vagy 1 karakter) 3. csonkolás pontosan a megadott számú karakterre (! : pontosan 1)
3
Maszkolás: Pl.: h*pertext
hypertext - hipertext
Ezekkel a lehetőségekkel akkor élhetünk, ha úgy érezzük, elegendő csak a keresőszó első néhány betűjét megadni. a keresőszavak toldalékolt alakjaira is el szeretnénk végezni a keresést. a keresőszót tartalmazó összetett szavakra is szeretnénk keresni. nem vagyunk biztosak a keresőszó helyesírásában.
Ezeket az eszközöket óvatosan használjuk, mert megnövelik a keresési időt, és esetenként jelentős mennyiségű irreleváns találatot eredményezhetnek.
Korlátozások Szűkíthetjük a találati halmazt a dokumentumok nyelve, létrehozási dátuma, típusa és számos egyéb jellemzője alapján. Készüljünk fel arra, hogy hogyan változtatunk a keresési stratégiánkon, ha a keresés túl sok vagy túl kevés találatot eredményez Túl sok találat esetén az AND, NOT, WITH, NEAR operátorokkal, korlátozásokkal, szűkebb jelentésű keresőszavakkal, újabb keresőszavak bevonásával csökkenthetjük a találatok számát. Ha túl kevés találatot kapunk, ellenőrizzük a keresőszavak helyesírását. A keresés bővítéséhez használhatjuk az OR operátort, csonkolást, bővebb jelentésű keresőszavakat, szinonimák bevonását a keresésbe, a kevésbé fontos keresőszavak elhagyását vagy kevesebb korlátozást. Ha így sem érünk el eredményt, próbáljunk meg máshol megtalálni a keresett dokumentumokat. Rendezés Lehetőség nyílik a találati halmazban szereplő rekordok bizonyos mezők szerinti sorba rendezésére növekvő, illetve csökkenő sorrendben.
Információs rendszerekkel szemben támasztott alapkövetelmények: lehetőséget adnak menüs, illetve parancsnyelvi keresésre az adatbázisok indexeltek, egyszerre több szempont szerint (kombinálva) futtathatjuk le a keresőkérdést
4
a releváns rekordok logikai- (AND, OR, NOT), helyzeti (közelség, távolság) operátorok, helyettesítő karakterek, csonkolás segítségével szűrhetők ki az adatbázisból a rekordok megjeleníthetők, nyomtathatók, tetszőleges formátumban (text, dBase stb.) exportálhatók, más alkalmazások számára konvertálhatók a keresőkérdések, találati halmazok elmenthetők, később visszahívhatók, majd újraszerkeszthetők lehetőség nyílik a találati halmazban szereplő rekordok bizonyos mezők szerinti sorba rendezésére növekvő, illetve csökkenő sorrendben támogatják a táblázatos megjelenítést az elvégzett keresés eredményhalmazán végezhető másodlagos keresés lehetőséget nyújtanak egyszerre több adatbázisban való keresésre stb.
5