Tudnivalók adatbázisról ADATBÁZIS = az információk logikai kapcsolataikkal együtt tárolt (visszakeresésre alkalmas) halmaza Adatbázis leírási jellemzői: Egyed: minden olyan dolog (objektum), amely minden más dologtól (objektumtól) megkülönböztethető, konkrét dolgok absztrakciója, konkrét dolgokat fog át. (könyv = sok könyv, stb.) Tulajdonság: az egyedek jellemzője, az egyedeket tulajdonságaikkal írjuk le (könyv szerzője, címe, kiadója, terjedelme, stb.) Meghatározó tulajdonság vagy kulcs: pl. könyv leltári száma. Meghatározó tulajdonság vagy kulcs: pl. könyv leltári száma Kapcsolat: mindig valóságos egyedek (objektumok) közti viszonyt fejez ki. Pl.: könyvtári könyv. Tehát az adatmodell egyedek, tulajdonságok és kapcsolatok halmaza, amely absztrakt módon tükrözi a valós objektumoknak, azok jellemzőinek (tulajdonságainak) és viszonyainak (kapcsolatainak) elvont kategóriáit.) Az adatmodell elemek kapcsolódási módjai határozzák meg az adatmodellek szerkezetét. Ma használatos adatbázisok adatmodell típusai fejlődési sorrendben: •
Hálós adatmodell
Szerkezetét gráffal adjuk meg, melyben a csomópontok az egyedek, az élek pedig a kapcsolatot fejezik ki. Az egyedeket tulajdonságaikkal jellemezzük.
•
Hierarchikus adatmodell. Szerkezetét egy potenciális gráffal – FA adjuk meg. Jelölés mint fenn. Minden egyed csak egy ponton (egy szülő) kapcsolódhat.
•
Relációs adatmodell. Ma leggyakrabban használatos.
Az egyed megadása táblázattal (a táblázat oszlopai az egyed tulajdonságai, sorai az egyed konkrét értékei, a mezők a tulajdonságok konkrét értékei) történik, a kapcsolat nem épül be az adatmodellbe.
A relációs adatmodellen alapuló adatbázisok kapcsoló eleme az azonos tartalmú oszlop, vagyis a közös tulajdonság.
•
Objektum orientált adatmodell. Az egyedeket objektumoknak nevezzük. Az objektum tulajdonságai az objektum állapotát (tulajdonságainak aktuális értékét) írják le. A tulajdonságok szerepe azonos a relációs adatmodellével, de lényeges különbség, hogy objektum orientált adatmodellben egy tulajdonság bármi lehet, akár egy másik objektum.
Adatbáziskezelő szoftver mint az adatbázis működtetés alapfeltétele: DBMS = Database Management System Fő funkciói: •
adatbázis létrehozása, szerkezetének kialakítása
•
adatbázis karbantartása – új adatok (rekordok) bevitele, adatok (rekordok) törlése, adatok (rekordok) módosítása
•
adatbázis lekérdezése
•
adatvédelem, adatbiztonság, azaz az adatbázis integritásának megőrzése
•
konkurencia kezelés, azaz a jogosult felhasználók adatbázishoz való egyidejű hozzáférésének kezelése (felhasználók száma)
Adatbázisok tervezése I. A célnak legjobban megfelelő adatbázis típus kiválasztása, azaz az adatbázis jellemzőinek részletes meghatározása Adatbázisok osztályozása működési cél szerint 1. Irányítási 2. Ügyviteli 3. Dokumentációs célú legjellemzőbb a könyvtári adatbázisokra. Keresés a nagy szöveges adatállományokból a dokumentum tartalma szerint – a keresőképet az információkereső nyelvi szótár szavaival és azok kapcsolataival kell leírni. Általános megnevezésük: információkereső rendszer.
Adatbázisok osztályozása felhasználás helye szerint 1. Államigazgatás 2. Ipar, kereskedelem 3. Közgyűjtemények Adatbázisok osztályozása felhasználási szakterület szerint 1. Átfogó, általános (pl. Science Citation Index 120 szakterület) 2. Szakterületi (pl. ERIC – oktatással kapcsolatos szakirodalmi adatbázis, MEDLINE – orvostudományi adatbázis, Forest Science – erdészet és elsődleges faipar) 3. Interdiszciplináris (pl. Biological Abstract – élettudományokkal foglalkozó adatbázis: biológia, botanika, zoológia, mikrobiológia, klinikai és kísérleti orvostudomány, a biokémia, biofizika, valamint a felsorolt tudományok eszközei és módszerei) 4. Egy szűk szakterület problémáinak megoldására létrehozott (pl. INIS- Az International Atomic Energy Agency által létrehozott adatbázis) 5. Egy dokumentumtípust feltáró (szabadalom, szabvány pl.: PIPACS - Publikus IParjogvédelmi AdatbázisCSalád, jogszabály pl. Jogtár adatbázis, stb.) Adatbázisok osztályozása funkció szerint 1. Forrásra hivatkozó adatbázisok –
bibliográfiai szakirodalmi adatbázisok, melyek a dokumentumok, információforrások bibliográfiai leírását, esetenként tartalmi ismertetését is tárolják.
–
Forrástájékoztató adatbázisok, amelyek személyek, intézmények, szervezetek adatait dolgozzák fel. (céginformációs, szakértői, stb.) 2. Forrás vagy forrástípusú adatbázisok, azaz a primér információt tartalmazzák.
-
numerikus adatbázisok (statisztikák, számsoros jellemzések)
-
szöveges-numerikus adatbázisok (képletgyűjtemények, műszaki útmutatók)
-
teljes szöveges (full-text) adatbázisok, melyek bármely típusú dokumentum (könyv, folyóirat, jogszabály, stb.) teljes szövegét kereshetően dolgozzák fel.
-
Szakértői rendszerek vagy tudásbázisok (kompilációk), értékelt információkat dolgoznak fel (Micromedex).
-
Integrált adatbázisok, melyek az előző funkciók közül többet is egyesítenek (integrált könyvtári rendszerek más-más típusú moduljai).
II. Adatbázis logikai tervezése az adatállományok, a logikai rekordok, az adattípusok és az elemi adatok (adatszintek) használatának megtervezése a használni kívánt adatmodell alapján. Az adatszintek közötti kapcsolat megjelenítése a találati halmazban „set” történik, amely a valamilyen szinten összetartozó, azonosan jellemezhető egyed előfordulásokat jelenti. Fő funkcionális adatállományok: -
bibliográfiai vagy master file – a dokumentumok bibliográfiai leírását tárolja
-
invertált file vagy index file – a keresés általában ebben a betűrendes file-ban kezdődik, és az egyes ismérvekhez kapcsolódó azonosítók vezetnek el a bibliográfiai adatállományhoz, azaz a konkrét dokumentumképhez.
-
A keresés útja lehet: soros (szekvenciális-nincs külön index file), közvetlen (direkt – master és invertált file-ban egyszerre)
Adattípusok: a dokumentumokat leíró ismérvek csoportja, amelyek felsorolása az adatszótárban található (adatmezők – TI, AU, SO, PY, stb.) Adatelemek körét az adatbázis funkciójának megfelelően kell megválasztani. (pl. hány szerző munkahelye szerepeljen, közlemény címe hány nyelven szerepeljen, tárgyszavazás hány nyelven történjen, stb.) Az adatállományokban történő keresési kombinációk döntő meghatározója a választott információkereső nyelv: az a nyelv, amely alkalmas az információk és az információkereső kérdések leírására, azaz a természetes nyelven megfogalmazott kérdések szabályozott nyelvre történő lefordítására.
Információkereső nyelvek típusai: 1. Hierarchikus - az információkereső nyelvi szavak tükrözik, hogy az általuk reprezentált fogalom mely másik fogalomnak specifikus fogalma, vagyis melyiknek van alárendelve. A szóképzés szabályai a fogalmi hierarchián alapulnak, bővebb fogalmak szerinti tárgyi információkeresésére alkalmasak. – Pl. Osztályozási rendszerek 2. Mellérendelő (tárgyszavas nyelvek) - a természetes nyelvből egy valamilyen módon szabályozott, kontrollált nyelvet kell létrehozni, és erre a nyelvre kell lefordítani a kérdés és a keresett információ tartalmát egyaránt. Eszköz: szinonimák kiküszöbölése, kitüntetett tárgyszó kiválasztása, „ld. még” típusú utalók beépítése. Az indexek tehát a dokumentum tartalmát leíró szóláncok – indextételek – rendezett gyűjteményei. Az indexelő eljárások során az indexkifejezéseket általában a dokumentum címéből vagy tartalmából emelik ki. Az indexek főbb típusai: Címindex- KWIC, KWOC (keyword in – out – contex) Szerepük osztályozási szempontból azonos, felépítésük különböző KWIC: elvágott találati cím + kód, teljes leírás a kód alapján csatolt bibliográfiában KWOC: a kiemelt kulcsszó után rögtön megjelennek a teljes címek Permutált tárgyi index – besorolás és a kívánt tétel elérését a tárgyszó-lánc elemeinek ciklikus permutációjával oldják meg. Lánceljárásos tárgyi index – a különböző fogalmi szinteken elhelyezkedő tárgyszavakat a specifikustól generikusig történő rendezésük után permutáljuk PRECIS (Preserved Context Indexing System) index – szövegösszefüggést megtartó indexelési rendszer, amely grammatikai szabályainak köszönhetően az indextétel felépítését a természetes nyelvű mondat szerkezetének felelteti meg. 3. Szemantikai (relációs) információkereső nyelv: A valamely fogalom leírására, megjelenítésére szolgáló kifejezéseket deszkriptoroknak, szótáraikat pedig tezauruszoknak nevezzük - a tezaurusz tehát egy szakterület természetes nyelven kifejezett
fogalmainak szabályozott, szükség szerint változtatható polihierarchikus szótára, amely feltünteti a fogalmak közötti legfontosabb logikai kapcsolatokat (relációkat). A tezaurusszal végzett fogalmi osztályozás alapjai a lexikai egységek, azaz a deszkriptorok és a nemdeszkriptorok, melyek az osztályozó fogalmak szabályozott nyelvi kifejezései. Deszkriptor: az adatbázis funkciójának megfelelően az információk leírására és keresésére közvetlenül használható, több hasonló kifejezés közül kiválasztott privilegizált szóalak. Nemdeszkriptor: a deszkriptor szinonimnak tekintett kifejezése, mely az információk leírására és visszakeresésére az őt képviselő deszkriptor figyelembe vételével használható. A tezaurusz fő részei: Deszkriptorcikkek és nemdeszkriptorcikkek, teljes kapcsolatrendszerükkel, azaz fogalmak egymás közötti relációit tüntetik fel. Tezauruszok további részei: tárgyköri mutatókötet, hierarchikus mutatókötet, szerkezeti mutatókötet. (MeSH részei) Adatbázis logikai tervezés része a találatok megjelenítési formátumának tervezése, azaz az adatbázis funkcióinak megfelelően mely találati rekordmezők jelenjenek meg. VÉGEREDMÉNY: a komplex logikai rekord. (Bibliográfiai leírás, osztályozás, referátum, azonosítók, stb.)
III. Az adatbázis fizikai tervezése Logikai rekordok fizikai rekordokban történő leképzése, azaz a fizikai rekord az az adatmennyiség, amelyet egy logikai rekord foglal el. A rekordok közvetlen, párbeszédes formában történő elérését a címzés teszi lehetővé. Leggyakoribb rekord és mező specifikációk: hívójel, név, rövidítés, ismételhetőség, hosszúság, jelkészlet, megjelenítés, stb. Adatbázis kereshetőségét döntően meghatározó fizikai tervezési szempont, a mező kereshetősége. Kereshetőség: a kereshető ismérvek meghatározása index kulcsokkal, azaz az invertálás. Kifejezésre invertálás: teljes mezőtartalom, pl. szerző, cím, stb. Szavas invertálás: a tiltott szavakat kivéve, a mező minden egyes szava, pl. cím, stb. Szavas invertálás: a tiltott szavakat kivéve, a mező minden egyes szava, pl. cím, absztrakt, stb. Kijelőléses invertálás: csak a feldolgozó által kijelölt karaktersorozatok, védelem a szabadszavas keresés nem értékelhető kifejezései ellen (kevesebb byte)
IV. Az adatbázisban tárolt információ keresése Információkeresés: a felhasználó információkereső nyelvre lefordított kérdésének összehasonlítása a tárban található, ugyancsak információkereső nyelven megfogalmazott - a dokumentumra vonatkozó – ismérvekkel.
Az információkeresés folyamata 1. Interjú vagy öninterjú a keresést végző személlyel -
Kívánt vagy szükséges korlátozások (keresés nyelve, keresés időhatára, keresendő dokumentumtípusok meghatározása, földrajzi elhatárolás)
-
Keresés céljának megfogalmazása (általános tájékozódás vagy szak specifikus, konkrét, kutatással alátámasztott információ)
-
Van-e előélete a keresésnek más adatbázisokban pl. ismert szerző, ismert folyóirat stb.
-
A keresés megfogalmazása természetes nyelvi kifejezésekkel
-
Mennyire sürgős a keresés
-
Milyen formátumban célszerű a találatok megjelenítése
2. A keresés megtervezése -
a keresett témát legjobban lefedő adatbázisok kiválasztása
-
a keresési stratégia kialakítása és megfogalmazása – Boole operátorok (AND, OR, NOT), csonkolás (?, *, %)
3. A keresési stratégia végrehajtásának szükséges feltétele: parancs nyelv(ek) ismerete -
pl. CCL parancsnyelv használata, grafikus felületen – ikonos parancs ábrákkal
4. A találatok megjelenítése -
online képernyőn: megfelelő formátum (mezők) kiválasztása
-
találatok mentése, továbbítása (e-mail), kinyomtatása
Online keresési stratégiák 1. Egyszerű, gyors keresés „quick and dirty” – a felhasználó által megadott kifejezésekkel vagy csonkolt változataival, Boole operátorok alkalmazásával. 2. Fogalmi építőkockák alkotása „building blocks” – ha a keresőkérdés több szóból áll; egy tárgy részletező leírásáról van szó. 3. Keresőszavak egymás utáni leválogatása – ha feltehető, hogy az összes fontos keresőfogalom felhasználásával túl kevés a találat. 4. Páronkénti leválogatás - ha mindegyik keresőfogalom nagyjából egyformán fontos. 5. Többszörös egyszerű gyorskeresés – ha túl kevés a találat, több adatbázisban végzett keresés. 6. Hólabdakeresés – kiinduló pont pl. egy ismert dokumentum bibliográfiai leírása, további keresés a megtalált dokumentumot reprezentáló ismérvek alapján. Relevancia-visszacsatolás A relevancia azt fejezi ki, hogy mekkora a közelség a felhasználói kérdés és a talált dokumentumok tartalma között, azaz azok a dokumentumok, melyek a kérdésnek megfelelnek, relevánsak. Irodalom: Ungváry Rudolf - Vajda Erik: Könyvtári információkeresés. Budapest, 2002, Typotex, 169 p.