10 A KERES NYELVEK KUTATÁSA, FEJLESZTÉSE, ALKALMAZÁSAHELYZETKÉP ÉS TRENDEK Összeáll. dr. Pálvölgyi Mihály. BDF KIT, 200607. tanév, 1. félév
TARTALOMJEGYZÉK 10.1 . A KERES NYELVEK ALKALMAZÁSI TRENDJEI 10.2. ALKALMAZOTT NYELVÉSZETI ALAPOK 10.3. NYELVTECHNOLÓGIAI STRATÉGIÁK, SZINTEK, MÓDSZEREK 10.4. HASZNÁLÓI, ALKALMAZÓI SZEMPONTOK 10.5. ÉRTÉKELÉS ÉS FEJLESZTÉS 10.6. A NYELVTECHNOLÓGIA A KERES SZOLGÁLTATÁSOKBAN 10.7 HOGYAN TOVÁBB?
10.1. A KERES NYELVEK ALKALMAZÁSI TRENDJEI
10.1.1. A keres nyelvekkel szemben támasztott követelmények 10.1.2 A keres nyelvek alkalmazásának változásai 10.1.3 keres nyelvekkel kapcsolatos felmérés, értékelés, helyzetkép 10.1.4. Az integráció követelménye
10.1.1. A keres nyelvekkel szemben támasztott követelmények (1) A keres nyelvekkel szemben támasztható kritériumcsoportok. (1)a keresés pontosságának, teljességének segítése, (2)a fejlesztés, alkalmazás segítése, támogatása, lehet vé tétele. Ezek támpontot nyújtanak értékelésükhöz
10.1.1. A keres nyelvekkel szemben támasztott követelmények (2) – a keresés teljességének vagy pontosságának segítése Egyértelm ség – az osztályozási rendszer minden szavának egy és csakis egy jelentése legyen. Minden fogalomnak csakis egy szó/kifejezés feleljen meg Áttekinthet ség – tükrözze az osztályozandó tudomány, szakterület stb. logikai szerkezetét. Legyen áttekinthet , jelzetei lehet ség szerint „beszéljenek”. Mélységbeni rugalmasság - a keresés során lehessen navigálni a fogalmi szintek között, a fölérendelt fogalmak, ill. alárendelt fogalmak felé Értelmi összefüggések kimutatása - legyen képes a fogalmak közötti összefüggések kifejezésére. Hívja fel a figyelmet ezekre az összefüggésekre! (pl. nemfaj, egészrész, rokonsági viszony, szinonima stb.) Egyszeri összefüggések ábrázolása - legyen képes az egyedi dokumentumok differenciált “egyedi” tartalmának tükrözésére! Legyen képes az IKNY-szavak következetes összekapcsolására. Biztosítsa logikai összefüggések, ill. a szerepösszefüggések ábrázolását Sokszempontú megközelítés - tegye lehet vé, hogy egy-egy fogalmat, tárgyi, szakmai, földrajzi, id , formai, stb. szempontból is lehessen feltárni, keresni
10.1.1. A keres nyelvekkel szemben támasztott követelmények (3) - fejlesztési alkalmazási tényez k Változtathatóság, rugalmasság - legyen alkalmas az új fogalmak, összefüggések elhelyezésére illetve kifejezésére a keres nyelven Gyakorlati alkalmazhatóság - legyen alkalmas mind a feltárásra, mind a keresésre, legyen a gyakorlatban megvalósítható, ne pedig csak elméleti konstrukció Széleskör alkalmazhatóság - legyen alkalmas az egyetemes és nemzetközi információáramlás el segítésére (nemzetközi információcserére, vagy összekapcsolhatóságra más keres nyelvekkel Könny megtanulhatóság - mind az információs szakember, mind pedig a használó számára legyen kényelmes, érthet és viszonylag egyszer a használata Elektronikus környezetben való alkalmazhatóság - legyen alkalmazható különféle technikai megoldásában, online, CDROM, Internet
10.1.2. (1) A keres nyelvek alkalmazására ható trendek Legfontosabb hatást gyakorló tényez k: technológiai tényez k ( az automatizálás, az integrált könyvtári rendszerek, a webes szolgáltatások,) emberi tényez k (a min ségi források kiválasztásának igénye). komplex tényez k (a hálózati együttm ködés),
10.1.2. (2) A keres nyelvek alkalmazásának változásai – a 3 irányzat
A keres rendszerek történetileg kialakult három irányzata jelent s változáson mennek át a fenti tényez k hatására a tudományfelosztáson alapuló irányzat, mely az osztályozási rendszerekre koncentrál, a nyelvészeti irányzat, mely a természetes nyelveken alapuló rendszerek fejlesztésére koncentrál, s az ún. statisztikai irányzat, mely az automatikus osztályozásra, indexelésre, a teljes szövegben való keresésre koncentrál. E tétel ezeket a változásokat, a keres nyelvek irányzatainak sajátos integrációját követi nyomon.
10.1.2. (3) A keres nyelvek alkalmazásának változásai -1990-es évek Az 1990-es évek els felében: a könyvtárakban és információs intézményekben használt felosztáselv osztályozórendszerek használata a következ volt: Egyetemes Tizedes Osztályozás (25%) , Dewey Tizedes Osztályozás (25 %), tezauruszok /különféle szaktezauruszok/ (10%), Kongresszusi Könyvtár Osztályozási Rendszere /LCC/ (5%) az Orosz/szovjet BBK (2%), Bliss Osztályozási Rendszere /Bliss Classification/ (1%), egyéb osztályozási rendszerek /könyvtárakban/ (32%) (Andrian, Alex C, 1996)
10.1.2. (4) A keres nyelvek alkalmazásának változásai - 2000-es évek A %-os arányok azóta tovább változtak. Bár pontos adatok nem állnak rendelkezésre, a felhasználói igények kutatása, a módszertani szakirodalom és a gyakorlat tanulmányozása alapján kijelenthet : A globális ETO szerepe csökkent, A volt szovjet BBK-é megsz nt, a tezauruszoké, illetve az egyéb kategóriába sorolható internetes keres rendszereké, internetes katalógusok kategóriarendszereié meghatározó lett.
10.1.4. (1) A keres nyelvekkel kapcsolatos felmérések, értékelések - alapelvek Fontosak a többször is hivatkozott kritériumok (egyértelm ség, mélységbeni rugalmasság stb.). N a jelent sége annak, hogy a dokumentumok feltártságával, a feltárás mélységével, min ségével kapcsolatos felméréseket végezzünk a keres nyelvek megválasztásával, fejlesztésével kapcsolatos döntések el készítésére Fontos a relevancia, pontosság, teljesség, zaj, zavar, jelveszteség, veszteség elemzése. Figyelni kell arra, hogy a teljesség és a pontosság fordított viszonyban áll egymással. (Így pl. szabadszavas rendszerek nagy teljességet, a tezauruszok nagyobb pontosságot eredményeznek) Mindezekb l következ en abból kell kiindulni, hogy a keres nyelvek és módszerek nem kizárják, hanem kiegészítik egymást.
10.1.3. (2) A keres nyelvek felmerése, értékelése, együttes használata – alapelvek 2
Felismerték, hogy „nincs és nem is lehet ….„ egyetlen üdvözít keres nyelv! A különböz keres nyelvek együttes alkalmazását indokolja, hogy nem lehet egyetlen olyan keres nyelv, mely tökéletesen eleget tesz az osztályozás minden követelményének (ld. 10.1.1.) eleget tenne, mindenféle megközelítést lehet vé tenne Másrészt az együttes alkalmazás révén összességében eleget tudunk tenni minden követelménynek, S az együttm ködés révén jobban lehet vé válik az információcsere a hazai, európai és globális intézmények és szolgáltatások között.
10.1.3. (3) A keres nyelvek felmerése, értékelése, együttes használata - Magyarországon Helyzetkép Egyes könyvtárak és könyvtári hálózatok helyi és osztott katalógusaiban. (pl. ETO, tárgyszó, kulcsszó stb.) Közepes és nagy közm vel dési könyvtárakban, fels oktatási könyvtárakban stb. gyakori, hogy többféle keres nyelvet használnak, pl. könyvek, egyes különgy jtemények (például helyismereti, szakdolgozati) esetében. Bibliográfiákban, például az MNB online, illetve CD-ROM változata segítségével a tárgyi feltárást segít szövegszavak, az egységesített testületi nevek, személynevek, földrajzi .nevek széleskör alkalmazása.
10.1.4 Az integráció követelménye – horizontális és vertikális (1) A horizontális integráció - egy keres rendszerben érhet k el a különböz információforrások adatai, vagy legalábbis egy felhasználói felületen. Példa: OPAC-ok, helyt adva a legkülönfélébb dokumentumtípusok szurrogátumainak (hagyományos, AV-, elektronikus dokumentumok stb.)
10.1.5 Az integráció követelménye – horizontális és vertikális (2) A vertikális integráció a feldolgozási láncban egy m veletet csak egyszer kell elvégezni, a kés bbiekben annak kimenetét a következ m velet bemeneteként használják. Példa: integrált könyvtári rendszer a különféle moduljaival.
10.2 ALKALMAZOTT NYELVÉSZETI ALAPOK 10.2.1. Az információtudomány nyelvészeti alapjai 10.2.2. A számítógépes nyelvészet fejl déstörténeti szakaszai 10.2.3. A nyelvtechnológia fogalma 10.2.4. Igények és szolgáltatások 10.2.5. A számítógépes nyelvészet kutatásai és alkalmazásai
10.2.1. Az információtudomány nyelvészeti alapjai – a számítógépes nyelvészet Az UNESCO 1988-ban közzétett nomenklatúrájában a „könyvtártudomány” kifejezés nem szerepel. Ami szakmánkra vonatkozik, az 57-es kódszám alkalmazott nyelvtudomány alatt - : referálás, automatikus dokumentáció, dokumentációs nyelvek, dokumentáció/. Az UNESCO tehát az egész információtudományt – tudományként – a közlemények nyelvének adott célú,» dokumentációs «vizsgálatára korlátozza. Egyéb ismeretet nem tagad, de nem tekint tudománynak. Az álláspont vitatható, ám elgondolkodtató”.” /Horváth Tibor, 1999. 19. p. /
10.2.1. Az információtudomány nyelvészeti alapjai – a számítógépes nyelvészet - A számítógépes nyelvészet a nyelvészet és a számítógépes szakma interdiszciplináris területe, - amely abból indul ki, hogy a számítógép nagymértékben felhasználható nyelvészeti problémák megoldásában.
10.2.1. Az információtudomány nyelvészeti alapjai – a számítógépes nyelvészet - fejl dési fázisok 1950-es évek - gépi fordítás és a nyelvészeti eszközökkel végzett információkeresés, -1960-as évek - els sorban a mesterséges-intelligenciakutatás hatására általánosabb diszciplína, számítógépes nyelvészet (computational linguistics, CL) kialakulása. 1970-es évek - a gyakorlati alkalmazások kerülnek az el térbe - természetesnyelv-feldolgozás (Natural Language Processing, NLP). 1980-as évek - az NLP helyett nyelvtechnológia (language technology, LT), illetve nyelvmérnökség (language engineering, LE)
10.2.1. Az információtudomány nyelvészeti alapjai – a számítógépes nyelvészet - legújabb tendenciák
1990-es évek óta - egyre gyakrabban használják — az Európai Unióban meghonosodott szóhasználattal — nyelvi iparról (language industry, LI) kifejezést.
10.2.3. A nyelvtechnológia fogalma
Az alkalmazott nyelvészet területe, olyan automatikus eszközök alkalmazása a tartalmi, jelentésbeli azonosság vagy hasonlóság megállapítására, melyek képesek a sokrét , mély, gazdag nyelvtani, szintaktikai összefüggések felismerésére. (PRÓSZÉKY, 2002)
10.2.4. Igények és szolgáltatások A nyelvtechnológia fejlesztések igényl i A magyar nyelvi szoftvereszközöket többszázezren használják naponta. E szoftvereszközök hatása egyre meghatározóbb az információt A nyelvtechnológiai szolgáltatók, szolgáltatások köre (1) MorphoLogic - nyelvhelyességi programok, szótárak készítése mellett a szöveges keresést támogató eszközöket, a morfológia elemz ket, a mondatelemz ket, a szótárkeres modulokat. http://www.morphologic.hu/h_prod.htm A MorphoLogic kutatóinak tudományos és szakmai publikációi részben teljes szövegben is elérhet k. (2) MTA Nyelvtudományi Intézete (3) interdiszciplináris kutatási m helyek /Szószablya, Szavak hálójában/.
10.2.4. Igények és szolgáltatások – a bövülés területei ember-ember kommunikáció: / természetes nyelvek, non-verbális, képi stb. nyelv/ ember-dokumentum kommunikáció / természetes nyelvek, természetes nyelven alapuló információkeres nyelvek, képi nyelv/, ember-gép kommunikáció - programnyelvek, jelöl nyelvek , lekérdez nyelvek, természetes nyelvek, természetes nyelven alapuló információkeres nyelvek, alakzatkeres nyelvek/. ember-eszköz kommunikáció / eszközök, kezelésük, m ködtetésük folyamata, lépései/
10.2.5. A számítógépes nyelvészet jellegzetes kutatási és alkalmazási termékei - szavak szintje Karakterkonverterek optikai karakterfelismer k beszédfelismer k, -generátorokhelyesírás-ellen rz k elválasztó programok automatikus korrektorok (pl. beszéd-, karakterfelismeréshez) Szövegindexel k keres programok elektronikus szótárak
10.2.5. A számítógépes nyelvészet jellegzetes kutatási és alkalmazási termékei - mondatok szintje Modern nyelvtechnológiai alkalmazások nyelvtani és stiláris ellen rz k gépi és géppel segített fordítás nyelvi ellen rzés (pl. beszéd-, karakterfelismeréshez) helyes intonáció el állítása (beszédszintetizáláshoz) nyelvtani és stiláris ellen rz k gépi és géppel segített fordítás nyelvi ellen rzés (pl. beszéd-, karakterfelismeréshez) helyes intonáció el állítása (beszédszintetizáláshoz)
10.2.5. A számítógépes nyelvészet jellegzetes kutatási és alkalmazási termékei - szöveg szintje szövegkivonatoló rendszerek szövegsz r k szövegszinkronizációk természetes nyelv gép-ember kapcsolat Forrás: Prószéky Gábor: Természetesnyelv-feldolgozás számítógéppel. (bevezetés a nyelvmérnökségbe) http://sziami.cs.bme.hu/~gervarro/teny/tn y.doc
10.3. NYELVTECHNOLÓGIAI STRATÉGIÁK, SZINTEK, MÓDSZEREK
10.3.1. A nyelvtechnológiai stratégiák 10.3.2. Nyelvtechnológiai kutatási és alkalmazási szintek
10.3.1. A nyelvtechnológiai stratégiák Az információfeltárás és keresés fejlesztése megoldandó ismeretelméleti kérdés lett. A „számítógépnek nincs eszköze a tartalmi, jelentésbeli azonosság vagy hasonlóság megállapítására. Ez pedig lassan megkérd jelezi a hálózat mint információforrás használatát, hiszen - a fentiekb l láthatóan igencsak korlátozott képesség számítógép az egyetlen eszköz, amelyen keresztül hozzáférhetünk a weben tárolt dokumentumokhoz. (PRÓSZÉKY, 2002) Az internetes keresés tömegessége olyan feltárási és keresési stratégiát követel, mely szerint az adatbázisokban kialakult bonyolult parancsnyelvek, jelöl nyelvek, lekérdez nyelvek mellett /helyett/ az átlagembert segít egyszer , könnyen alkalmazható nyelvtechnológiai eszközök álljanak rendelkezésre.
10.3.2. Nyelvtechnológiai kutatási és alkalmazási szintek
10.3.2. Nyelvtechnológiai kutatási és alkalmazási szintek 10.3.2.1. A szavak szintje 10.3.2.2. A mondatok szintje 10.3.2.3. A szöveg szintje
10.3.2.1. A szavak szintje – morfológiai elemzés szerepe A morfológiai elemzés a szavak szintjén megy végbe. Feladata a szóalakok vizsgálata, a szótövek, toldalékok vizsgálata, egyes nyelvekben (például angol) a szótári alakok megállapítása. Választ adnak arra a kérdésre, hogy mib l és hogyan épül fel egy szó. Az eljárásnak az indexelés szempontjából az a lényege, hogy meghatározza azokat a szóalakokat, amelyek egy tárgyszólistába, szótárba, tezauruszba kerülve biztosítják az indexkifejezés függetlenségét a szövegben el forduló megjelenési formától.
10.3.2. A mondatok szintje A szintaktikai elemzés feladata A közlés tartalmának megragadásához a szavaknál és szintagmáknál nagyobb egységek megismerése is kívánatos. Nagyobb egység a mondat. A szintaktikai elemzés terepe a mondatok szintje, vizsgálatának tárgyai a mondatrészek. Az elemzések választ adnak arra a kérdésre, hogyan alkotják az egyes szavak a mondatot. Az elemzés eredménye a mondat szerkezete. Az ún. kontextusfüggetlen grammatika elemei alkalmasak arra, hogy megállapíthassuk, melyek a lehetséges kulcsszavak. Kulcsszóként szóba jöhetnek például a mondatok alanyai és tárgyai, míg a hozzájuk kapcsolódó jelz s és határozós szerkezetek esetenként a többtagú indexkifejezések forrásai lehetnek. Ahhoz, hogy kés bb a mondatot elemezni tudjuk, el ször meg kell határoznunk a szavak típusait, azaz a szófajokat. Ezek a következ k lehetnek: f név, ige, melléknév, elöljáró (angol), határozószó, egyéb
10.3.3. A szöveg szintje - a szövegelemzés feladata Az elemzés legátfogóbb szintje. A teljes dokumentumot (szöveget) veszi górcs alá, hogy az elemzés alacsonyabb szintjein megállapított elemek el fordulásai között a szöveg szintjén ható tartalmi összefüggéseket megállapítsa. Az elemzés a kontextusfügg tudás feltérképezését szolgálja abból a célból, hogy egy szöveget jelentésfügg egységekre bonthassunk. A célt két lépésben fogalmazhatjuk meg: /1/ a kognitívumok megállapítása / a szöveg szegmentálása./ /2/ a tartalomfeltárást támogató eszközök, például tezauruszok vagy szemantikus hálók automatikus generálása. A szövegtani elemzés fontos segít je a korpusz. A korpusz ténylegesen el forduló írott, vagy lejegyzett beszélt nyelvi adatok gy jteménye, melyben a szövegeket valamilyen szempont szerint válogatják és rendezik.
10.4 HASZNÁLÓI, ALKALMAZÓI SZEMPONTOK 10.4.1. A keresést, alkalmazást szolgáló fejlesztések 10.4.2. A keresést segít eszközök és szolgáltatások példái 10.4.3. Információkinyerési technikák
10.4.1. A keresést, alkalmazást szolgáló fejlesztések Napjainkban az ún. „intelligens keresésekkel” kapcsolatos fejlesztések kerültek el térbe. /1/ az internetes keres eszközöket tömegesen igénybevev laikus felhasználók tudásszintjének és attit djeinek növelése /ez bizonyos körben járható és követend út/. /2/ A gépi kereséstámogató technológiák olyan szintre fejlesztése, hogy azok képesek legyenek kiszolgálni az egzakt keres nyelvek használatára nem képes felhasználókat. /http://SZAVAK.hu projektbeszamolo alapján/
10.4.2. A keresést, alkalmaz ást segit eszközök és szolgáltatások példái Gyakoriság lekérdezése - lehet séget adnak a gyakoriság lekérdezésére, amely a tezaurusz kifejezéseit el fordulási gyakoriságuk szerint rangsorolja bármely keresésben Permutálás - a kifejezések alkotóelemeinek permutálása Külön hozzáférés az összetett szavakba beágyazott kifejezések külön hozzáférhet ségének biztosítása. A természetes nyelv kérdések elemzése és értelmezése - / „a keresés indexelése”/ viszonylag egyszer , ugyanakkor látványos, hatásos felhasználóbarát eljárás. Keres (böngész ) szolgáltatások fejlesztése, új keresési formák, a hagyományos keresési formák és lehet ségek továbbfejlesztése Az ember-gép-dokumentum kommunikáció területén a használatos nyelvek, információkeres nyelvek illetve az ezekkel kapcsolatos különféle problémák megoldása
10.4.3. Információkinyerési technikák A nagy adatbázisokban (esetleg elszórtan) tárolt információk kinyerésének 2 legfontosabb problémaköre: (1) Fels fokú keresési technikák - A szóalapú és a szövegb l szintaktikailag információt kinyer technikákat kiegészítik s a tartalom szerinti, szemantikus kereséssel ötvözik (XML) (2) Adatbányászat - A szövegb l történ információkinyerést parzolással történ automatizálása. Megj: Parzolás: az a folyamat, ahogy a gép megérti az emberi mondatot valamilyen séma szerint, s képes kisz rni bel le a szavak közti relációkat.
10.5. ÉRTÉKELÉS ÉS FEJLESZTÉS
10.5.1. Értéknövel hatások, a szemantikus web 10.5.2. A kutatások-fejlesztések aktuális irányai
10.5.1. Értéknövel hatások, a szemantikus web A szemantikus web a jelenlegi web kiegészítését szolgálja, melyben az információnak jól meghatározott jelentést adnak, lehet vé téve a számítógépek és emberek együttm ködését. (Forrás: BERNERS-LEE – HENDLER – LASSILA, 2001)
A szemantikus weben (a „jelentésen alapuló” weben) olyan kifejezéseket használhatunk, melyeket – a nyelvtechnológiai fejlesztéseknek köszönhet en - a számítógép értelmezni és változtatni tud. Így lehet vé válik, hogy az unalmas, rendkívül id igényes problémákat, azok egy részét számítógéppel oldassuk meg, de megkönnyíti és meggyorsítja az információkeresést is (szakterületi, ill. gyakorlati problémákkal kapcsolatos információk, stb).
10.5.2. A kutatások-fejlesztések aktuális irányai a precizitás növelése, az információkinyerés hatékonyságának növelése, az intelligens elektronikus szótárfejlesztés, a természetes nyelvfeldolgozás, korpuszkutatás és fejlesztés a weboldalak kutatása, valamint a képi- és hanganyagok keres eszközeinek fejlesztése
10.6. NYELVTECHNOLÓGIA A KERES SZOLGÁLTATÁSOKBAN 10.6.1. Problémák és a megoldási irányai 10.6.2. Kereséspontossági problémák és megoldások 10.6.3. Keresésteljességi problémák és megoldások 10.6.4. A felületi és mély web integrálása 10.6.5. Szoftvereszközök 10.6.6. Szolgáltató-használói kommunikáció (A felsorolás szintjén kell csak tudni!)
10.7. HOGYAN TOVÁBB? Pierre Bourdieu, francia szociológus: „Egy nyelv annyit ér, amennyit beszél i érnek”. Ez az érték nem feltétlenül gazdasági jelleg ; kommunikációs, kulturális, tudományos, politikai, vallásos, turisztikai, sporttal kapcsolatos, földrajzi, személyes mozzanatai is lehetnek. Az egyes nyelvek (pl. magyar nyelv) jövõbeli státusát /és így a könyvtár-és információtudományi alkalmazásait is/ az fogja meghatározni, hogy kinek lesz rá szüksége. Erre egyel re nem nagyon áll rendelkezésre semmilyen stratégia. /forrás: SZÉPE, é.n./
KÉRDÉSEK Tanulmányozza az elektronikus anyagban szerepl 21 kérdést, és legyen képes azokra választ adni!
Jó felkészülést kíván
A szerz