4 A KERES NYELVEK NYELVÉSZETI IRÁNYZATA Oktató: dr. Pálvölgyi Mihály Szombathely, BDF KIT, 2006-07.tanév, I. félév.
1. TARTALOMJEGYZÉK
4.1. Áttekintés, alapfogalmak, történet 4.2. A keres nyelvek típusai a nyelv szabályozottsága szerint 4.3. Tipizálás további kritériumok szerint 4.4. A keres nyelvek alkalmazása és fejlesztése
4.1. ÁTTEKINTÉS, ALAPFOGALMAK, TÖRTÉNET
4.1.1. A keres nyelv fogalma, forrásai 4.1.2. Az alapvet követelmények kérdése 4.1.3. A természetes nyelvi indexelés terjedése
4.1.1. A keres nyelv fogalma, forrásai Keres nyelv – „információkeres nyelv”, rövidítve IKNY. Az információk feldolgozását, tárolását, keresését lehet vé tev nyelv, mely épülhet természetes nyelvre (pl. magyar, angol stb.)., vagy mesterséges nyelvre (szakemberek által kidolgozott, bevezetett nyelvek) és a kett kombinációjára (pl. mesteséges rendszerben névalosztások)
4.1.1. A keres nyelv fogalmai, forrásai – folyt. : mesterséges nyelvre épül keres nyelvek
Mesterséges nyelvre épülnek az Egyetemes Tizedes Osztályozás (ETO), a Dewey Decimal Classification (DDC) A Kongresszusi Könyvtár osztályozási rendszere stb.
4.1.1. a keres nyelv fogalma, forrásai folyt.: a természetes nyelvre épül keres nyelv fogalma, példái A természetes nyelvre épít keres nyelv Olyan normalizált nyelv, melynek a természetes nyelvhez hasonlóan van --morfológiája /jól meghatározott, körülhatárolt szókincse/, --szintaxisa /a természetes nyelvre épül szókincse szavaiból létrehozható értelmes szóláncok kialakításának meghatározott szabályrendszere/. Természetes nyelvre épül keres nyelvek példái: Kulcsszavas nyelvek, pl. KWIC-index (kulcsszó szövegkörnyezetben) Tárgyszavas nyelvek, pl. Új Könyvek tárgyszórendszere Deszkiptoros nyelvek, pl. OSZK tezaurusz- köztaurusz stb.
4.1.2. A keres nyelvekkel szembeni alapvet követelmények Ön szerint melyik a jobb keres nyelv: az ETO, vagy egy természetes nyelvi IKNY, pl. az Új Könyvek tárgyszónyelve? Ennek megválaszolásához ismételjük át, mik az alapvet elvárások az osztályozási indexelési rendszerekkel szemben: /1/ Segítsenek kialakítani az azonos vagy hasonló témájú dokumentumok csoportjait, osztályait! /2/ Segítsenek leírni az egyedi információkat! /3/ Segítsenek megszervezni az ismeretek tartalmi-tematikai szerkezetét tükröz rendszert! /4/ Segítsenek kimutatni az újdonságokat, „novumokat”!
4.1.2. A keres nyelvekkel szembeni részletes, összesen 12 követelmény 1. 2. 3. 4.
a fogalmak egyértelm jelölése, a fogalmak /keres nyelvi szavak/ áttekinthet sége, a keresés mélységben rugalmassága, az indexkifejezések közötti értelmi összefüggések jelölése
4.1.2. A keres nyelvvel szembeni részletes követelmények folyt.
5. 6.
7. 8.
a forrásokban rögzített egyszeri összefüggések, tényállások jelölése Specifikusság - az eredeti szöveg olyan mélységben való osztályozása, ahogy a szerz megírta. a precedens-nélküliség érvényesítése, a szövegekben megjelen újdonságok leírása, relációmegel z transzformáció: az eredeti szöveg relációinak „átmentése” a szurrogátumba.
4.1.2. A keres nyelvvel szembeni részletes követelmények folyt. 9. új fogalmak, indexkifejezések gyors, rugalmas felvétele, 10. sokszempontú, kombinált kereshet ség, 11. egyszer , könny , kényelmes használat, 12. költséghatékony feldolgozás/keresési módszerek
4.1.3. Természetes nyelvi indexelés tört. A természetes nyelvet alapul vev indexelési/keresési irányzat a II. vh után indult és az 50-es években vett lendületet. (1) Mortiber Taube USA, 1953-ban létrehozta az „uniterm” rendszert. Az „uni” egyet, egyedit, a „term” pedig terminust, szót, kifejezést jelent. Az uniterm 2 f jellemz je: (a) az uniterm olyan egyedi osztályozó, indexel fogalom, mely már nem bontható tovább az értelme lényegi megváltozása nélkül, illetve az ezt kifejez indexel szó, kifejezés. (b)forrása maga az eredeti dokumentum, ahonnan kötetlenül, szabályozatlanul emelik be a keres rendszerbe (szerz k által használt szavak) (2) Hans Peter Luhn az USA-ban 1958-ban létrehozta a KWICindexet.
Mik a természetes nyelven alapuló keres nyelvek sikerének f okai? 1, kiválóan alkalmazhatók az egyedi információk feltárására, az ujdonságok kimutatására 2, könnyen, gyorsan használhatók, 3, a természetes nyelv problémáit (szinonima, homonima stb.) a fejleszt k egyre hatékonyabban kezelik 3. többféle megközelítést (feltárást, keresést) tesznek lehet vé ugyanazon a nyelvi alapon 4. Ily módon diverzifikált és kombinált fejlesztésiszabályozási stratégiák érvényesülhetnek az internetes, adatbázisos, OPAC-os környezetekben.
4.2. A KERES NYELVEK TÍPUSAI A SZABÁLYOZOTTSÁG SZERINT
4.2.1. Tipizálási kérdések 4.2.2. Szabályozatlan nyelv keres nyelvek 4.2.3. Átmenetek 4.2.4. Szabályozott nyelv keres nyelvek – szabályozási szintek és példák 4.2.5 A keres nyelv mondattana, az indextétel összeállítása
4.2.1. Tipizálási kérdések, a szabályozás szintjei Három alapvet kérdéshez köt dik a tipizálás: (1) Mekkora mérték egy keres nyelv használatában összességében, általánosságban a kontroll, a szabályozás, a kötöttség? (2) Mekkora mérv nyelvi szabályozásnak vetjük alá az egyes keres nyelvi szavakat? (3) A nyelvi szabályozás mellett alávetjük-e ezeket a szavakat logikai szabályozásnak is? A fentiek figyelembevételével a két f keres nyelvi típus: (1) szabályozatlan, (2) szabályozott. Ezekhez kapcsolódik (3) a kett közötti átmenet
4.2.1. folyt. A két f típus a nyelvi szabályozás szintje szerint (1)Szabályozatlan IKNY-ek - gyakorlatilag semmi vagy minimális a kontroll, - A természetes nyelv szavait nem vetjük alá szabályozásnak, ellen rzésnek. - (Abszolút) kötetlenül, szabadon választhatunk a természetes nyelvi szavak - kulcsszavak, szövegszavak között (2)A szabályozott nyelv IKNY-ek -A természetes nyelv szavait bizonyos mérték (esetleg abszolút) szabályozásnak vetjük alá. - A kötött, adott fogalomra kötelez en használandó szavakat, nyelvi és logikai kapcsolatokat tartalmazza (3) A kett közötti átmenetek (lásd külön).
4.2.2. Szabályozatlan nyelv IKNY-ek A feldolgozó szakember az osztályozási kifejezéseket változtatás nélkül emeli ki a dokumentum címéb l, referátumából, szövegéb l – szabályozott, ellen rzött szótár alkalmazása nélkül A felhasználó a keres szavakat és kifejezéseket szabadon, szabályozott, ellen rzött szótár alkalmazása nélkül fogalmazza meg, és keresi vagy keresteti
4.2.3. Átmeneti keres nyelvek Indokai Bizonyos fogalmak /pl. az új gazdasági, m szaki fogalmak/ tükrözésére vagy még nem alakultak ki szabványos, kötött kifejezések, vagy bizonyos fajta fogalmak egyáltalán nem is kerülnek be az “abszolút” kötött IKNY-szótárakba, pl. rendszernevek, típusnevek - ALEPH, Hewlett Packard a cím és a referátum szövegéb l kigy jtött kifejezések, melyek a tanulmány stb. szerz jének szóhasználatát tükrözik (“szabad tárgyszavak” identifikátorok), melyek esetleg nincsenek benne semmilyen szabványos, ellen rzött IKNY-szótárban, (de bekerülhetnek abba)
4.2.4. Szabályozott nyelv keres nyelvek Bennük rögzített szabályrendszerek biztosítják az alaktani és jelentéstani egyértelm séget, s határozzák meg a szóalakokat és ezek használatát, indextételbe való koordinálását. A szabályozás nyelvi és logikai szinten valósul meg: NYELVI SZABÁLYOZÁS célja, hogy az IKNY alakilag és jelentésbelileg egyértelm , következetes legyen, tehát a szabályozatlan természetes nyelv hátrányait kiküszöböljük. LOGIKAI SZABÁLYOZÁS célja, hogy a nyelvi szabályozáson túl az osztályozási kifejezések egymás közti kapcsolatait is meghatározzuk és beépítsük az IKNY-einkbe
4.2.5. A keres nyelv mondattana, az indextétel összeállítása Az ismeretreprezentálást, tudásreprezentálást indexelésnek is nevezzük, ami a tudást tárgyilag leképez indextétel összeállítását, az indexkifejezésekkel való ellátását jelent. Az indextétel összetett egység - az eredeti dokumentum, kognitívum tárgyi-tematikus reprezentációjára. Az indextétel indexkifejezésekb l áll. Ezek a szabályozottság mértéke szerint lehetnek kulcsszavak, tárgyszavak, deszkriptorok.
4.2.5. Az indextétel összefüggése az indexkifejezések el zetes és utólagos egymáshoz rendelésével Indexkifejezés és indextétel összefüggése: Az indexkifejezések - keres nyelvi szavak - az indextételnek egy-egy jellemz jét, oldalát mutatják. Az indexkifejezések összességében alkotják az indextételt. Az indexkifejezések egymáshoz rendelésének módjai: A prekoordinált rendszerben az indexkifejezéseket szintaktikai szabályok szerint f zzük indextételbe, azokat egymáshoz kapcsoljuk: keres nyelvi mondatokat képezünk (pl. UK tárgyszórendszer alapján). A posztkoordinált rendszerben az indexkifejezéseket külön-külön adjuk meg, az egyes keres nyelvi szavak a felhasználónál kapcsolódnak össze keresési stratégiájában, keresési igényei szerint (pl. BDF Központi Könyvtár)
4.3. A KERES NYELVEK TIPIZÁLÁSA TOVÁBBI MEGKÖZELÍTÉSEK SZERINT 4.3.0. Bevezetés 4.3.1. az osztályozási kifejezések közötti függ ség szerint – hierarchikus, mellérendel 4.3.2. a feltárás mélysége szerint – generalizáló – individualizó 4.3.3. a szerkezetük szerint – prekoordinált- posztkoordinált 4.3.4. a tartalmuk szerint - egyetemesek, szakterületiek (speciálisak) 4.3.5. az automatizálás mértéke szerint – nem-automatikus, félautomatikus, automatikus 4.3.6 a földrajzi elterjedés szerint - nemzetközi, nemzeti, helyi-regionális
4.4. A KERES NYELVEK ALKALMAZÁSA ÉS FEJLESZTÉSE 4.4.1./2. Helyzetkép és trendek 4.4.3.Keres nyelvek/eszközök és kombinációik 4.4.4./5. Felmérések, tapasztalatok- A természetes nyelven alapuló keres nyelvek megfelelése a követelményeknek 4.4.6. Az integráció követelménye – horizontális és vertikális
4.4.1 Helyzetkép – a keres rendszerek fejl désére ható trendek
Technológiai tényez k (az automatizálás, az integrált könyvtári rendszerek, a webes szolgáltatások,) Komplex tényez k (a hálózati együttm ködés), Emberi tényez k (a min ségi források kiválasztásának igénye). Az ezredfordulóra a világméret Internet kialakulásával gyökeresen átalakult mind az osztályozási, mind pedig az információkeres tevékenység. Teljesen új szakmai csoportok kezdtek foglalkozni a hálózaton belül használt rendez és keres rendszerek készítésével.
4.4.1 Helyzetkép (folyt)- a természetes alapú keres nyelvek alkalmazása (1) Tárgyszavazás (manuálisan) - a 19. század derekától (2) Kulcsszavas indexelés (manuálisan) - a 19. századtól (pl. név, tárgymutató) (3) Kulcsszavas indexelés (félautomatikusan) az 1950-es évek végét l (KWIC-index stb.) (4) Kulcsszavas és tárgyszavas (deszkriptoros) indexelés (automatikusan adatbázisokban) az 1960-as évekt l, majd OPAC-okban 1980-as évekt l (5) Internetes indexel rendszerek - 1990-es évekt l (6) Új szemantikai eljárások és módszerek - a 2000-es években „Több dudás is megfér egy csárdában”. (Paczolay)
4.4.3. Keres nyelvek és kombinációk Válas György szerint többféle keres nyelv alkalmazása szükséges egy rendszerben, és a konkrét keresésnél kell eldönteni, hogy az alábbiak közül melyiket vagy melyek kombinációját használjuk. 1) tezaurusz; 2) "szabad" tárgyszavas keresés; 3) hierarchikus osztályozási rendszer; 4) speciális adatmez k kötött formátumú keresése; 5) szabad szöveges keresés. (VÁLAS, 1999.) Mindehhez tudatosítani kell a különféle IKNY-ek sajátos el nyeit és lehet ségeit.
4.4.4./5 A kötetlen, szabályozatlan keres nyelvek megfelelése a követelményeknek - el nyök Szókincse az aktuális, "él " (szak)nyelvb l táplálkozik, azt tükrözi, az új témakörök szabadon, gyorsan kereshet k benne, az osztályozás mélysége a téma tárgyalásának mélységével mindig egybeesik. könnyen megtanulható és használható, „elég” a nyelvet, bet rendet ismerni. A bet rendben gyorsan követhet k a tudományos és egyéb eredmények, a terminológia változásai, ha elég pontosan tudjuk, mire is vagyunk kíváncsiak, Egyaránt alkalmasak egyedi információk és csoportok leírására, Szabadszavas keresés olyan a szövegben szerepl információkhoz is "utat nyit", amelyek a szigorúan ellen rzött IKNY útján gyakorlatilag nem elérhet k (pl. személynevek, földrajzi nevek, specifikus tárgyi megnevezések, márkanevek, géptípus nevek, szoftvernevek). A szavak kombinációi jól kereshet k a keresés pontosítása érdekében /posztkoordináció/ A szavak viszonylag kényelmesen böngészhet k (pl. adatbázisokban nyelvi, kiadás, kiadó, tárgyi, földrajzi, személynév stb. indexek szerint)
4.4.4./5 A kötetlen, szabályozatlan keres nyelvek miben nem felelnek a követelményeknek? mivel a természetes nyelv soha nem egyértelm , a keres kifejezések egyértelm vé tétele nagy körültekintést igényel nehéz a homonima-, szinonimaproblémát kezelni, csak igen terjengõsen lehet osztályozni, a kulcsszavas keresésnál fontos lehet a kulcsszavak közvetlen szövegkörnyezete, mely annak jelentését is meghatározza. a szövegekben gyakoriak az összetett szavak, amelyeket nem könny megragadni, s így megtalálni sem, a fogalmi struktúra kidolgozatlan, a felhasználót nem segítik (eléggé) a kulcsszavak közötti összefüggések meglátásában, az egyes tárgykörök fogalmai teljesen szétszóródnak a bet rendben, a felhasználó nem kap semmilyen képet a tudományok, szakterületek egészére stb. vonatkozóan. .1. Alapfogalmak, történet, elterjedés
4.4.4./.5 Hogyan lehet a hátrányokat kiküszöbölni - a szókapcsolatok elemzésének példája A hátrányok kiküszöbölésére a vizsgálatot kiterjesztették a szókapcsolatok elemzésére is. Gyakran egy fogalom nyelvi megfelel je ugyanis nem egyetlen szó, hanem valamilyen szintagma (szókapcsolat, kifejezés), pl. "információs társadalom", " élethosszig tartó tanulás", "nyitott és távoktatás "stb. Ezek keresése a helyzeti operátorok segítségével történhet, pl. információs(1w) társadalom a Dialog rendszerben való keresésnél azt jelenti, hogy a természetes szövegb l azokat a szókapcsolatokat választjuk ki, amelyekben az információs illetve a társadalom kifejezések 1w (w= word, szó) azaz egy szó távolságra állnak csak egymástól. A Google-ban idéz jelek („”-k) közé téve biztosíthatjuk egy szókapcsolat, kifejezés egyértelm keresését stb.
4.4.6 Az integráció követelménye – horizontális és vertikális Horizontális integráció egy keres rendszerben érhet k el a különböz információforrások adatai, vagy legalábbis egy felhasználói felületen. Az OPAC-okban pl. helyet kapnak a legkülönfélébb dokumentumtípusok szurrogátumai (hagyományos, AV-, elektronikus dokumentumok). A használt keres nyelvek nem mindig ugyanazok (könyvek, id szaki kiadványok, szakdolgozatok stb. esetén eltérhetnek, ami gyakran indokolható is) Vertikális integráció a feldolgozási láncban egy m veletet csak egyszer kell elvégezni, a kés bbiekben annak kimenetét a következ m velet bemeneteként használják ( pl. integrált könyvtári rendszerben, közös, osztott katalogizálási rendszerekben). Ehhez elengedhetetlen a keres nyelvek egymásraépül , közös fejlesztése, egységes elvek, szempontok, szabályok alkalmazása.
KÉRDÉSEK - Alapfogalmak Mik a természetes nyelven alapuló keres nyelvek fejl désének f hajtóer i? Mik voltak a f állomásai? Hogyan értelmezi a nyelvészeti irányzat a IKNYeket? Mit jelent a specifikusság elve? Mit jelent a precedens-nélküliség elve? Mit jelent a relációmegel z transzformáció? Mik az uniterm f jellemz i?
KÉRDÉSEK –keres nyelvek szabályozottsága Mik a nyelvi szabályozottság szintjei, hozzon példákat is! Mi volt Luhn négy kiinduló hipotézise? Mik a szabályozatlan IKNY f jellemz i el nyei és hátrányai? Mik a szabályozott nyelv IKNY-ek f jellemz i – el nyei és hátrányai?
KÉRDÉSEK –további hat felosztási szempont Hogyan, milyen szempontok szerint csoportosíthatók az IKNY-ek? Az osztályozási kifejezések függ sége szerinti rendszereknek mik a f jellemz ik? A feltárás mélysége szerint milyen rendszerek vannak és mik a f jellemz ik? A szerkezetük szerint milyen rendszerek vannak és mik a f jellemz ik? A tartalmuk szerint milyen rendszerek vannak és mik a f jellemz ik? Az automatizálás mértéke szerint milyen rendszerek vannak és mik a f jellemz ik? A földrajzi elterjedés szerint milyen rendszerek vannak és mik a f jellemz ik?
KÉRDÉSEK – a keres nyelvek alkalmazása és fejlesztése Milyen tényez k befolyásolják az IKNY-ek fejl dését? Milyen kombinációk lehetségesek az IKNYek között? Mit jelent az integráció, milyen két ága van? Alapfogalmak, történet, elterjedés
1. MEGJEGYZÉSEK ………………………..