Osztályozási rendszerek, információkereső nyelvek I Darányi Sándor SZTE BTK Könyvtártudományi Tanszék
Gyakorlati tudnivalók •
• • • • • •
IKNY1-hez könyv: B. Hajdu Ágnes – Babiczky Béla (1998). Bevezetés az információkeresö nyelvek elméletébe és gyakorlatába. Budapest: Universitas Kiadó. http://etotanf.freeweb.hu/oszttip.htm (2010.09.28) Pajor Enikö: gyakorlatok, útmutatás Bekötött linkek magyarul vagy angolul Ékezetek Két félév két nap alatt, legközelebb nov. 18. A fóliákat megkapják Vizsga: számítógépes teszt
A tantárgy célja •
•
A tantárgy az információkeresést elösegítö ismeretábrázolás hagyományos és automatizált formáit tekinti át – Az ismeretszervezést elökészítö formai és tartalmi feltárás eszközeire és módszereire összpontosít: • Azokra az értelmezési eljárásokra, amelyekkel a dokumentumokat a könyvtárakban és információs szolgáltatásokban elemezni szokás, illetve • Az így létrejövö osztályozási rendszerekre A megértést segítö áttekintés, szemléleti alapozás a könyvtári gyakorlathoz
I. rész: Körkép • •
•
•
•
A könyvtári osztályozás a rend tudománya – Várkonyi Nándor (1896-1975) Az emberiség két egyetemes álma: – Rend – Közös nyelv, vö. Leibniz (17461716) characteristica universalis-a vagy Frege (1848-1925) Begriffschrift-je – A 20. sz.-ra a kettö összefügg Rend: Hérakleitosz ún. kozmikus töredékeiben jelenik meg az európai filozófiában elöször – Kozmosz = rend (a.m. világrend); kozmein = 1. berendezni, rendbehozni, 2. szépíteni (-> kozmetika) A rendezés egyetemes probléma – Ilja Prigozsin (kémiai Nobel-díj 1977) szerint minden emberi tevékenység 30 %-át ez teszi ki Az elsö részben körkép a könyvtárról
Átalakuló könyvtárak •
•
•
A könyvtárnak régen megõrzési funkciója volt, ma emellett elsõsorban információkat gyûjt, tárol és szolgáltat Különbözö irányokból különbözö szemléletü és érdekü szakmai közösségek támadják és igyekeznek helyettesíteni, a könyvtár fogalmát kikezdve, átértelmezve, mással helyettesítve Társadalmi és szellemi kihívások ütközözónája
A nyomtatástól az egyetemes bibliográfiai számbavételig •
Johannes Gutenberg (kb. 14001468), német aranymüves és nyomdász, neki tulajdonítjuk a mozgatható betükészlettel való nyomtatást Európában (kb. 1450), valamint a nyomdászat gépesítését általában. Fömüve az ún. Gutenberg Biblia.
•
Konrad Gessner (1516 –1565) svájci természettudós, ”a bibliográfia atyja”. Bibliotheca universalis (1545): az ö koráig valaha élt valamennyi szerzö katalógusa latinul, görögül és héberül, müveik címleírásával, kb. 3000 tétel tematikus elrendezésben.
A szervezés/rendezés kényszere... • • •
...mélyen emberi, vszg. ösztön. ”Az emberi gondolkodás alapformája” (Hajdu – Babiczky) A tanulási képesség elöfeltétele, hogy elemezni és csoportosítani tudjuk az adatokat, információt, ismereteket, tényeket stb. Azért csoportosítjuk öket, mert el kell raknunk, majd megint meg kell találnunk. A visszakeresés (”information retrieval”) hatásfoka a csoportosítás szervezettségétöl függ. Összehányt információt nem, vagy csak nehezen lehet ismét megtalálni.
Az információ természete •
• • • •
A vonatkozó fogalmak ”folyékonyak”. Pl. XY számára a folyamat ez: adat információ tudás (ismeret) megértés bölcsesség. Ezek közül melyekkel foglalkoznak a köz- és magángyüjtemények (könyvtár, levéltár, múzeum)? Lezáratlan vita arról, információt vagy tudást (ismeretet) szervezünk-e nagyobb egységekbe Tudás (ismeret) = az egyén elméjében, aki tanulmányozta és megértette az anyagot; információ = az ismeret (tudás) átadása és/vagy átvétele Pl. a referensz könyvtáros tudása segít abban, hogy az olvasók kérdéseire választ adjon A tudásmenedzsment (”knowledge management”) népszerü fogalommá vált az adminisztratív szervezetekben
A rögzített információ természete • • •
Más módszerek kellenek pl. a beszélt, a hallott, a csak (át-, el-)gondolt információ szervezéséhez A rögzített információ sokkal több, mint csak a szöveg. A szervezési egység az ”információs csomag”, a bibliográfiai tétel, nem egyszerüen a leírás Ilyen ”információs csomagokat” gyártunk a bibliográfiai számbavétel során
A rögzített információ természete folyt A bibliográfiai számbavétel hat funkciója: 1. 2. 3. 4. 5.
6.
Számon tartja, milyen típusú ”információs csomagok” léteznek és/vagy keletkeznek Számon tartja mindazon müveket, amelyek ilyen csomagok részei Rendszerezve gyüjteménnyé szervezi az ”információs csomagokat”, akár intézményröl, akár pl Internet állományokról van szó, stb. Listázza a címleírás szabályai szerint készült ”csomagokat” Nevet, címet, tárgyat, ill más hasznos hozzáférési pontokat rendel az egyes ”csomagokhoz” Biztosítja, hogy minden egyes ”információs csomag” vagy a másolata megtalálható legyen
Az információ rendezése a könyvtárakban • •
A gyüjteményszervezés legrégebben a könyvtárakban tart A gyüjteményszervezés a következökön alapul: – – – –
• •
A könyvtár rendelései a kiadóktól Ajándékok és adományok A fenntartóval, ajándékozóval közösen kidolgozott fejlesztési tervek új dokumentumállományt érkeztetnek elöre meghatározott gyüjtökör szerint Folyóiratok elöfizetése (ha az e-változat miatt nem mondják le)
A bejövö anyagokat valamilyen elv szerint rendezni kell, pl. betürendben vagy más rendben, a.m. osztályozás szerint, polcokra kerül Az osztályozás a katalogizálási folyamat része, amely a következö lépésekböl áll: – – – – – – –
A fizikai tétel leírása Bizonyos nevek, címek stb. hozzárendelése a tételhez hozzáférési pont gyanánt Ezeknek az adatoknak a normatív, hibátlan felvétele A tétel tartalmi feltárása A tartalmi feltárás eredményét kifejezö jelzetek hozzárendelése Ún. hívószám (call number), pl. a Cutter szám hozzáadása az osztályozási jelzethez, amely egy bizonyos példány fizikai azonosítását, lokalizálását végzi el A végeredmény, az ún. rekord elkészítése a MARC (Machine Readable Cataloging) szabvány szerint, majd bevitele egy vagy több integrált könyvtári adatbázisba
Katalogizálás folyt. •
•
• • •
A katalogizálás föbb eredményei: – Kialakított gyüjtemény – Olyan katalógus felépítése és fenntartása, amely a gyüjteményhez a hozzáférés módját megadja Az online katalógusok elött a könyvtár fö cédulakatalógusa, könyvkatalógusa vagy COM (Computer Output Microform) katalógusa mellett voltak egyéb fajták is (pl. tanszéki könyvtári, folyóirat-, speciális formátumú [pl. kisnyomtatvány-], polcjegyzék, stb.) A legtöbb online katalógus mindezeket összevonva kezeli Továbbá a legtöbb online katalógus része az integrált könyvtári rendszernek, emiatt cirkulációs [feldolgozási] információ csatlakozik minden cédulához (rekordhoz, ”információs csomaghoz”) A helyi online katalogizálást (”mije van a könyvtárnak”) fokozatosan felváltják az ún. union katalógusok (”mije van a hálózatnak”), ami az Internet által (”mit ér el a könyvtár”) közelít Gessner egyetemes bibliográfiai számbavételéhez (350 év után, de ezt vö. az Internet ”robbanásával”, a deep web problémájával, illetve a Google-jelenséggel)
Online katalógus és tájékoztatási munka • • • •
Az online katalógusok lehetnek kapcsológépek (gateway) külsö rendszerekhez, pl az OCLC bibliográfiai hálózathoz vagy az RLIN-hez, ezek megmondják, hol található az olyan ”info csomag”, ami nekünk nincs meg Bibliográfiai és szöveges adatbázisok is elérhetök a kapcsológépröl ( dokumentum másolati szolgáltatások) Nagy lökés a világháló (WWW). Sok könyvtár katalogizálja az Interneten elöforduló dokumentumokat a felhasználói számára (URL hyperlink a katalóguscédulán) A visszakereshetöség élesben a tájékoztatásban (referensz) döl el. Ha egy tétel nem található, újra kell szervezni az infót. Mindez a könyvtárosok és a könyvtári adminisztráció együttmüködését kívánja.
Atlas of Cyberspace WWW képek
Információ szervezése az Interneten • • • • • • •
A levéltárakat, múzeumokat és müvészeti galériákat átugrottuk Internet: ”Mintha egy könyvtárban a földre borították volna a könyveket, katalógus nélkül” A változás gyorsabb, mint a rendezés (6-9 hét = 1 WWW év, dotcom-os idökben legalábbis) OCLC WorldCat – globális katalógus Keresögépek (search engines) Elektronikus/digitalizált dokumentumok automatikus indexelése és osztályozása A szemantikus világháló (Semantic Web)
Digitális könyvtárak • •
•
• • • •
•
A 90-es évek elejétöl: egy témához kapcsolódó, közösen épített link-gyüjtemények az intézmények tájékoztatási oldalain A 90-es évek közepén: teljesen vagy részben elektronikus dokumentumok szervezett gyüjteménye, mind a struktúra, mind a visszakeresése egy helyen (egy gépen, egy honlapról stb); nem egyszerüen mutatók (pointer) sorozata; egy bizonyos közösség számára A 21-dik században: információkeresö rendszerek és információs intézmények (a könyvtár csak egy közülük!) ”felturbózott” integrációja; az új tartalom magában foglalja az információ elöállítását és felhasználását is, nemcsak a keresését (Borgman) A távoktatás meg az élethossziglan tanulás következtében a könyvtár vagy átalakul, vagy eltünik A testreszabott digitális könyvtáraktól a szabványos, az összes részfolyamatot gépesítö, egyszerü, piacon vagy ingyen is kapható formák felé (vö. Greenstone) Pl. a digitális könyvtár a multimédia adatbáziskezelö csomag távoktatást támogató moduljává válhat (ma egész, holnap rész) A digitális könyvtárak szervezése metaadatokon (pl Dublin Core), XML/RDF sémákon, ontológiákon, taxonómiákon alapul, portálokon keresztül érhetök el (portál = kirakat, itt: jelszavas hozzáférés sok tartalomszolgáltatóhoz, sorban vagy egyszerre [párhuzamosan]) Az osztályozás neve itt már gyakran Knowledge Organization Systems (KOS), különösen a világhálón
A könyvtárossal rokon fogalmak •
•
”Információépítész” (information architect): – Tisztázza a honlap ”küldetését” és céljait – Eldönti, milyen információ – tartalom és funckiók – hova kerül a struktúrában, megtervezi a hozzáférési pontok fajtáit és megoszlását (mit lehessen keresni/böngészni), vonzó kirakatokat tervez és rendez be, kéz a kézben a honlaptervezövel (website designer) – Megtervezi, idövel hogyan változzon, bövüljön a lap struktúrája Adatmodellezö (data administrator): mindenféle intézményi adatot, adatszerkezetet és folyamatot modellez – Rendszert tervez, amely egymással kapcsolatban álló modellek sorozata – Elkészíti a rekord-menedzsment fogalmi modelljét – Ennek alapján logikai rendszertervet készít – A logikaiból fizikai modell készül, amelyet adatbáziskezelö rendszerként (DBMS) munkába állítanak (implementálnak) – Ha az adatmodellt rendszeresen frissítik és a fogalmi modell változásaihoz igazítják, akkor az sokáig kiszolgálja az intézményt
Rokon fogalmak folyt: (Vállalati) tudásmenedzsment • • • •
1. szakasz: ”A tudás hatalom”: tanulj többet, légy a hatalmasok egyike a társadalomban 2. szakasz: A vállalatok dolgozóik elbocsátásával ismereteket és know-how-t veszítenek; a müszaki fejlödés ezt nem kompenzálja a várt mértékben 3. szakasz: egy intézmény akkor marad fenn, ha rendelkezik alkalmazottai tudásával; az ismereteknek ez az összessége az ”ereje” A tudásmenedzsment a fejlett technika segítségével ezt a tudást gyüjti, rendezi és használja – –
Kell hozzá az ismeret meghatározása Az ismeret az elmében ”lakik”: • • •
– – –
•
Információ, (szöveg)környezet és tapasztalat keveréke Csoportok és közösségek közös tapasztalata, ha egy bizonyos keverék bevált Döntésekhez és válaszlépésekhez vezetö tömény, magas fokon rendezett tényanyag
A tudás/ismeret ”lappang” (tacit), nem nyilvánvaló, de azzá lehet tenni az innováció érdekében Cél: tudásraktárak (knowledge repositories), jobb hozzáféréssel (knowledge access), javítani az ismeretek mint környezet színvonalát a tárolt tudás leírásával, osztályozásával és visszakeresésével Hasonlít a szakértöi tudáshoz a szakértöi rendszerekben
Jelenleg lényegében tartalom-menedzsment, de dolgoznak a tartalom (szöveg)környezetének gépi megértésén és kiaknázásán
II. rész: Az osztályozás elmélete •
Miröl fogunk beszélni az IKNY1-2 tantárgyban? – – – –
Alapok Iskolák Vívmányok (termékek) Gépesítési lehetöségek
Tartalom – szöveg, kép...
Alapok • •
•
• •
Az osztályozás és IKNY az információs bázis (könyvgyûjtemény, folyóiratok, kutatási jelentések stb.) gyûjtése, tárolása, nyílvántartása, tartalmi elemzése, majd az információk felhasználása szempontjából perdöntö jelentõségû Az információk tárolásának és a rájuk épülõ tájékoztatásnak a módszerei az évszázadok során változáson mentek keresztül, ám számos olyan jellemzõjük is felismerhetõ, amely az emberi gondolkodás (a fogalomalkotás és a nyelv) maradandó sajátossága Az információkeresés alapja minden korban a rendezettség és a kezelhetõség volt – Elõfeltételei a történelem során jelentõsen változtak. – A legrégibb idõszakokban az irodalomban kialakult tevékenységi formák, mûfajok, oktatási rendszerek, illetve az ezek alapját képezõ tudományfelosztási elvek alakították ki a tájékoztatás célját szolgáló könyvtári és bibliográfiai osztályozási rendszereket (szakrendszereket) – Ezeknek az új korban klasszikus, széles körben elterjedt módszerei fogalmazódtak meg – Az osztályozástörténetében a 19., majd a 20. század fordulópontot jelentett. Kialakult az információkeresést tudományosan megalapozó osztályozáselméleti kutatás és irodalom Filozófiai, logikai, nyelvészeti, tudományrendszerezési és tudományszervezési elvek + a tudomány és technika haladása Részei: – Az osztályozás logikai és matematikai alapelvei, – A könyvtári és bibliográfiai szakrendszerek típusai, az ezekkel kapcsolatos alapfogalmak, – A tudományfelosztáson alapuló osztályozási rendszerek (szakrendszerek) fejlõdéstörténete • A régebbi keletkezésû szakrendszerek, • A 19. század végétõl keletkezett fontosabb, napjainkban is használt, vagy érezhetö hatású jelentõs könyvtári és bibliográfiai szakrendszerek, – A nyelvi eszközökkel megvalósuló információkeresés (tárgyszavas osztályozás, indexelési eljárások, tezauruszos információtárolás és keresés, szintaktikus nyelvek) kérdései
A tudományok fejlödése és az információ •
•
• •
A tudomány a természet, a társadalom és a gondolkodás objektív összefüggéseirõl szerzett, igazolható ismeretek rendszere. Egyik fontos feladata, hogy kialakítsa és rögzítse saját felépítését, a fogalmai között meglévõ belsõ viszony- és szabályrendszert. A tudományok fejlõdése során alapvetõen két felosztási rendszer jött létre: a tárgyi és a megfigyelõi. A megfigyelõi felosztás a megfigyelt jelenség, tudományterület nem minden ismérvét veszi számba, hanem csupán egyet, vagy néhányat emel ki közülük. A megfigyelõi megközelítés módszerét legteljesebb következetességgel a kibernetika alkalmazza. A kitüntetett szempontok a kibernetikában általában az energia vagy az információ. Információs fogalomrendszerrõl beszélve elsõsorban a dolgok szerkezetét, szervezetét, mûködési mechanizmusát vizsgáljuk. Egyes vélemények szerint a korábbi fizikai felfogással szemben a világ alkotó elemei, az anyag és az energia kiegészülnek az információval. A tudományok és az információ fogalma szorosan összekapcsolódott a huszadik századra, és nem csak a filozófiában és a tudományrendszertanban, hanem szinte valamennyi területen. A könyvtári osztályozásban a feltárandó, kifejezendõ dokumentum tartalmát sokan az információ fogalmával cserélték fel.
Az információk tartalmi megközelítése •
• •
A könyvtári feldolgozó munkának két területét különböztethetjük meg : – A dokumentumok formai leírását és azonosítását, ez a katalogizálás, illetve a bibliográfiai leírás feladata – A dokumentumok tartalmi vagy tárgyi feltárását, mellyel az osztályozás foglalkozik A két rész szorosan összefügg, például némelyik azonosításra szolgáló jegy képes tartalmat is jellemezni, vagy a tárgyi megközelítés során is eljuthatunk a konkrét mûig A feldolgozás során szurrogátum keletkezik, az eredeti dokumentum helyettese
Mindennek az alapja: feldolgozás és feltárás •
•
• •
Feldolgozás: a dokumentum formai ismérveinek számbavétele a mü, illetve példányai azonosítása végett – A feldolgozás célja: • Lehetövé teszi a formai jegyek alapján való keresést (vö. böngészés), illetve • A tartalmi feltárást – Müfaja: a bibliográfiai leírás = címleírás, címfelvétel Feltárás: a dokumentum tartalmi ismérveinek számbavétele a benne található információk alapján – A feltárás célja: a dokumentumok • Nyilvántartása • Rend(szer)ezése • Megtalálásának biztosítása (vö. keresés) – Müfaja: az osztályozás = szakozás A kettö nem válik el élesen egymástól, egymást feltételezi E kettö hatásfokától függ az egész információs rendszer hatásfoka, az olvasó/felhasználó véleménye a könyvtárról, a tájékoztatási szolgáltatásról
Szurrogátum • •
•
•
Az egy dokumentumról összegyûjtött formai és tartalmi ismeretek összessége. Egybegyűjti mindazon ismérveket, melyek alapján a felhasználó megtalálja a keresett dokumentumot Funkciói – A dokumentum feltárása, – A dokumentum tárolása és – A visszakeresés biztosítása. A hagyományos visszakeresõ rendszerben, a katalógusban a szurrogátum fogalmán a bibliográfiai tételt - nem kizárólag a bibliográfiai leírást! -, míg a számítógépes rendszerekben a rekordot értjük. Általában a szurrogátum lényegesen bõvebb, mint az egyszerû bibliográfiai leírás és osztályozási jelzet együttese, tartalmazhat referátumot, kiegészítéseket stb. Az eredeti mü egy példánya és a felhasználó között ez létesít kapcsolatot
Példa a szurrogátumra: a bibliográfiai tétel •
A leírás tárgyát képező dokumentum összes feldolgozott ismérve, pl.: – Leíró (bibliográfiai) adatok (szerzöségi/bibl. adatok: pl. cím, [2] kiadás, megjelenési adatok) – Besorolási adatok (egységesített cím, egységesített szerzöi névalak, sorozati cím, lelöhely, jelzet [polc]) – ami alapján katalógust építek; a bibliográfiai adatok értelmezése, ”metaadat” • Metaadat: pl. egy adatelem értelmezése, meghatározása (ld.MeSH rekord) = adat az adatról
– Tartalmi jellemzők (jelzetek, tárgyszavak, bármi)
A tartalmi feltárás szintjei • •
•
•
•
1. szint: Bibliográfiai leírás. A formai azonosításra szolgáló jegyek összességét adja, de ezek egy része képviselheti a tartalmat is (esetlegesen) 2. szint: Osztályozás. Bizonyos tartalmi ismereteket állapít meg a dokumentumról, s azt röviden valamilyen fogalmi lánccal kifejezi, ez által az információk átfogó tartalmi csoportosítására alkalmas. Az ismérvek összefoglalóan megjelenhetnek táblázatokban, tárgyszójegyzékekben stb. 3. szint: Referálás. Összefüggõ szövegben, tömören és röviden elmondja a dokumentum tartalmi jegyeit és lehetõvé teszi annak eldöntését, hogy célszerû-e tanulmányozni a dokumentumot. A referátum lehet – Indikatív (jeladó): Röviden ismerteti a dokumentum fõ témáját és a fontosabb eredményeket. – Informatív: az eredeti dokumentum tanulmányozásának kisebb mértékû pótlására hivatott. – Autoreferátum: ha a szerzõ saját mûvérõl készít referátumot. – Annotáció: a dokumentum rövid jellemzése annak tartalma, rendeltetése, formája és nyelvi sajátosságai alapján. 4. szint: Tömörítvény. Összefüggõ szövegben, minden az eredeti mûben lényeges tartalmi jegyet magában foglal (táblázatokat, ábrákat stb. is). Képes pótolni az eredeti mûvet. 5. szint: Szemlék. Analitikus-szintetikus mûfaj, mely egységes vezérelv alapján több hasonló témájú dokumentumot dolgoz fel.
Feltártsági mutatók • • • • •
Címleírási egység feltártsági mutatója: ”ismérvek (besorolási helyek) átlagos száma / dokumentum” Referátum, tömörítvény stb. feltártsági mutatója (Senko): ”kivonat szavainak száma / eredeti dok szavainak száma” Másik módszer (Perry & Kent): ”(az eredeti dok releváns mondatai – a kivonat releváns mondatai) / az eredeti releváns mondatai” (0-1 közötti érték) Ennek a komplementere: ”Z (zaj) = a kivonat nem releváns mondatainak száma / a kivonat összes mondatának száma” De mi a releváns?
Szurrogátum, relevancia, pertinencia •
”A dokumentum tartalmilag releváns egy keresökérdésre, ha, elvben, megfelel neki, képes válaszolni rá…(…) A pertinencia az eredeti mü és a felhasználó eredeti problémája (kérdése, témája, szerepe, feladata) közötti megfelelés …” [Soergel, D.: Indexing and Retrieval Performance: The Logical Evidence]
Kitérö: természetes és mesterséges nyelvek • •
•
• •
Bármely nyelv jellemzöi: morfológia (alaktan), szintaxis (mondattan), szemantika (jelentéstan) [+ a szemiotikában pragmatika (használat)] Természetes nyelvnek (a mesterséges nyelvekkel szemben) az emberek által használt olyan nyelvet nevezzük, amely egy közösség (törzs vagy nemzet) életében nemzedékről-nemzedékre spontán vagy tudatos folyamatok (pl. nyelvújítás) során szabadon fejlődik, változik. Egyes források szerint ma 5-6000 (mások szerint még több) mindennapos használatban elterjedt természetes nyelvről beszélhetünk. Nyelvészeti szempontból az egymással kisebb-nagyobb hasonlósággal rendelkező természetes nyelveket csoportosítani lehet. A csoportosítás legfelsőbb szintje a nyelvcsaládokba történő szelektálás. Vannak emberek által használt, de nem természetes, hanem mesterséges nyelvek is, melyeket nyelvelméleti, matematikai vagy informatikai célból alkottak. A mesterséges nyelvek közül ismertek a programozási nyelvek, amelyeket szokás környezet-független nyelveknek is tekinteni. Környezet-függő (contextsensitive) tulajdonsága ellenére újabban a természetes nyelvek feldolgozása (Natural Language Processing, vagy NLP) óriási fejlődésnek indult, és a számítástechnika egyik vezető alkalmazási tématerületévé vált. Az említett terület azonban egy még szélesebb ismertekörbe, a magyarul csak nyelvtechnológiaként emlegetett témakörbe tartozik.
Nyelv, dokumentum, ... •
• •
A szöveges mûvek tartalmának kifejezése a nyelv által. Az IKNY közös vonása, hogy mindegyikük a természetes nyelvbõl ered vagy ezekbõl levezethetõ. A nyelv egy adott, egyezményesen kialakult jelsorozat és a nyelvtani szabályok együttese. A jeleknek egy adott nyelvben megengedett halmazát ábécének nevezzük. A nyelvi jelsorozatok véges, rögzített halmaza a szótár. A szótár legkisebb, önálló értelemmel még bíró eleme, lexikai egysége a szó. A szavak, mondatok információt hordoznak. A közölhetõség és a felhasználás érdekében ezeket valamilyen anyagi hordozón rögzítik. A rögzített információk egyik megjelenési formája a dokumentum.
...információ •
•
Matematikai információ- (kommunikáció-) -elmélet (Shannon 1948): adó, vevö, csatorna, zaj, redundancia. A nyelvvel nem, csak a kód elemeivel, egy eseményalgebra eseményeivel foglalkozik. Az entrópia mint központi fogalom révén köze van a termodinamikához. Az információ a fizikában a határozatlanság mértékét, az entrópiát érintö (csökkentö, növelö) változás. – –
•
Az információ a nyelvben a jelentés, amelyet egy formai egység (szó, mondat, bekezdés, stb.) hordoz. – –
• •
Egy jel = egy esemény; a bekövetkezés információértéke a valószínüsége reciproka. Minél ritkább, annál ”újabb”, annál nagyobb az információtartalma. Miért annál nagyobb? Mert rendszerben meg kell tippelni a következö eseményt. Ilyenkor az egy jelre esö átlagos információt az entrópia (= bizonytalanság, rendezetlenség, határozatlanság, ritkaság) méri. Ha biztos, ami következik, nincs információ. Ha teljesen bizonytalan, maximális az info tartalma. Ennek a szemantikához semmi köze: az információ a bizonytalansággal határos, és nem egy üzenetre vonatkozik, hanem üzenetek statisztikai jellegéböl számítjuk.
Jelentéselméletek. Két- és háromkomponensü jel a szemiotikában. Olyan, mint egy töltéseloszlás a térben. Két absztrakció, hely és jelentés, találkozik.
A két meghatározást a ritkaság (újdonság – újság) mértéke köti össze. Mivel statisztikai is, szemantikus is, ebben az értelemben az információ univerzális, az anyag és az energia mellett a világegyetem egyik építököve, a strukturálódás ”nyersanyaga”, a változás katalizátora.
A szójelentés néhány elmélete • •
Kétkomponensü (Saussure) vs. háromkomponensü jel (Peirce) Egy szó vagy egy mondat jelentése nem egy fogalom, egy entitás, vagy a dolgok valamilyen állapota (Lyons 1968:411), hanem ehelyett ezeknek az egyvelege, amely legalább három fö részböl áll: “a szó jelentése a használata módja” (Wittgenstein), “a szó jelentése a következménye” (Bloomfield), illetve “a szó azt jelenti, amire utal” (Peirce) – –
•
“A jelentés a használat módja”: a beszédben elöforduló szövegkörnyezet értelmezi a szót (Harris); “A jelentés az utalás”: „X = Y Z-n ek, vagy amíg Z tart‟
Jelentésrelációk a nyelven belül (két szó viszonya) vs. Utalás a nyelven kívülre (a ”valóságba”) (Lyons 1968)
Vissza a témához: Katalógusok, részletesebben •
•
•
•
•
A könyvtárak történetében az elsõ információs tár a katalógus. A könyvek elrendezése, csoportosítása, osztályozása a kezdetektöl a könyvek elhelyezési rendjének, a könyvraktáraknak a visszatükrözése. A rokon tartalmú, azonos témakörbe tartozó könyvek egymás mellé helyezésével szakcsoportok jöttek létre. Ez vezetett a könyvtárak szakrendi beosztásához. A könyvgyûjtemények jelentékeny megnövekedése a tartalom alapján való csoportosítás helyett a mechanikus elhelyezéshez (pl.: kurrens számozás) vezetett, és a tartalom szerinti csoportosítás már csak a tételekröl készített tárgyi katalógusban tükrözõdött. A tájékozódási igények két nagy típusa: – Az olvasó valamely általa ismert mûvet keres, – Az olvasó egy általa megjelölt témáról, tárgyról meghatározott típusú irodalmat keres Az elsõ esetben a formai (leíró) katalógus alapján található meg a keresett dokumentum. A leíró katalógusba a kiválasztott besorolási adatok betûrendjében kerülnek be a bibliográfiai tételek. Ezek a besorolási adatok a következõk: szerzõ(k) vagy testület neve, cím és közremûködõk neve. A betûrendes leíró katalógus arra ad választ, hogy mely szerzõ, mely mûve, milyen kiadásban található meg. A második esetben a tárgyi katalógus nyújt segítséget, mely a katalóguscédulákat úgy rendezi, hogy az azonos témakörbe tartozó dokumentumok katalógustételeit azonos osztályozói kifejezés, jelzet alatt gyûjti össze.
Katalógusok folyt •
A tárgyi katalógusok fontosabb típusai különbözõ megközelítések alapján
•
Nyelvük szerint: • Természetes nyelvi alapúak – Tiszta (mellérendelõ, klasszikus) tárgyszókatalógus – Rendszerezõ (alárendelõ) tárgyszókatalógus • Mesterséges nyelvûek – Szisztematikus (szakrendi, rendszerezõ, szak-) katalógus Szerkezetük szerint: • Tiszta (mellérendelõ stb) tárgyszókatalógus • Rendszerezõ tárgyi katalógus (szakkatalógus) – természetes nyelvû, pl.: rendszerezõ tárgyszó – mesterséges nyelvû, pl.: ETO
•
•
A mû tárgyát kifejezõ elnevezések (tárgyszavak) betûrendjében szerkesztett tárgyi katalógus a tiszta tárgyszókatalógus.
•
A fogalmakat más fogalmakkal kapcsolatuk (hasonlóság és különbség, rokonság, alárendeltség stb.) alapján kialakított rendben tervszerûen felsoroló katalógus a szisztematikus, rendszerezõ, más szóval a szakkatalógus.
Osztályozás, részletesebben •
•
• • •
Az a logikai tevékenység, amely során a jelenségeket, tárgyakat hasonlóságuk foka szerint egybegyűjtjük és különbségeik foka alapján elkülönítjük. Az emberi gondolkodás alapvető formája, párhuzamos a fogalomalkotással. Célja tartalmilag összetartozó, olyan kisebb csoportok képzése, ahol lehetőség van az általánostól a specifikusig való keresésre. Ha dokumentumokon történik, könyvtári osztályozás. Általánosan: a dolgok egymáshoz való viszonya és logikai kapcsolatai lehetõvé teszik egységes rendszerek létrehozását, melyekben a fogalmak különbségeik és hasonlóságaik alapján az általánostól a specifikus felé haladva meghatározott helyet foglalnak el. Azt az eljárást, amely ilyen rendszert hoz létre, osztályozásnak nevezzük. A filozófiai tudományrendszerek két felosztási (részekre osztási, taglalási) módot ismernek: tárgyit és megfigyelõit. A jelenségek tárgyi felosztása: Arisztotelész (Kr.e. 384-322). A csúcs Linné (1707-1778). A törzsi társadalmak óta ismeretes (Claude Lévi-Strauss) A jelenségek megfigyelöi felosztása: pl. kibernetika. Nem minden ismérv, csak vagy az energia, vagy az információ felöl.
Osztályozás folyt •
•
A könyvtári osztályozás elsõdlegesen gyakorlati, a tudományok osztályozásának tükrözése csak másodlagos, eszköz szerepet játszik. A tárgyaknak, jelenségeknek több olyan tulajdonságuk is lehet, melyek a felosztás alapjául kiválaszthatók. Ugyanazon tárgynak, fogalomnak tehát több, önmagában helyes osztályozása lehetséges. Ahhoz, hogy megfelelõen osztályozzuk a dolgokat, helyesen kell elemezni a tartalmat, és jól kell ismerni az adott célt, az osztályozási rendszert, az osztályok közötti kapcsolódási lehetõségeket. Ugyanabban az információkeresõ nyelvben ragaszkodnunk kell az ismérvek azonos szempontból való megválasztásához, mert az osztályozás csak így lesz következetes és használható. Az osztályozásnak Ranganathan óta három szintjét különböztetjük meg. Az elsõ a fogalmak szintje, amikor az osztályozandó dokumentum tárgyát fogalmakkal határozzuk meg. Második az elnevezések szintje, a nyelvi szint, amikor megfelelõen pontos elnevezéseket választunk a fogalmaknak. A harmadik a jelzetelés szintje, amikor egy adott osztályozási rendszer jelkészletébõl megállapítjuk a dokumentum tartalmát, tárgyát legjobban kifejezõ jelzeteket.
Az osztályozás logikai és matematikai alapelvei 1: A fogalom •
•
• •
A fogalom: – Dolgok, jelenségek legfõbb ismertetõjegyeibõl a tudatban kialakított gondolati forma – A valóság általánosítása és absztrakciója – A megismerés egyik alapformája – Mindaz, amit a nyelv megnevezni képes – Az osztályozás mindig fogalmi síkon zajlik Ismertetöjegy: – Jellemzõ vonás, tulajdonság, amelynek alapján valami felismerhetõ, megkülönböztethetõ – A jelentés elemei, nemcsak a szavak jelentését értelmezik, hanem a bonyolult fogalmakból egyszerûbbet, az egyszerûbõl bonyolultabbat alakíthatnak ki – A különbözõ dolgok közös ismertetõjegyei azokat egy osztályba egyesítik, és az egy osztályba tartozó tárgyak, jelenségek fogalmainak hasonlóságát tükrözik Megkülönböztetö jegy (differentia specifica): – A dolgok közötti különbséget tükrözi – Az adott osztályon belül a továbbosztályozás alapjául szolgálhat Nem (genus) és faj (species), mint fölé- és alárendelt osztály (hierarchia): – Nemet tükrözö jegyek: lényeges, közös ismérvek, amelyek a tárgyakat egy fölérendelt, általánosabb osztályban egységesítik, más osztályoktól pedig megkülönböztetik. – Fajt tükrözö ismertetöjegy: az a közös ismérv, amelyik egy adott osztályon belül megkülönbözteti a fogalmak egy csoportját
Alapelvek 1 folyt.: A fogalom tartalma és terjedelme • • •
• •
A fogalom tartalma (intenzió, NEM intenció) a benne általánosított dolgok lényeges ismertetõjegyeinek összessége. Pl. virág, tulipán A fogalom terjedelme (extenzió) mindazon dolgok összessége, amelyre az ismérvei illenek. Pl. virágok, tulipánok Egy fogalom tartalma és terjedelme egymással fordított arányban van. Pl. élõlény - ember - nö - író - Szabó Magda A fogalom tartalmának megragadása, az ismérvek teljessége az osztályozás helyessége szempontjából döntõ (milyenség, minöség) A fogalom terjedelme azt tükrözi, hogy a fogalomba milyen tárgyak tartoznak, amelyeknek közös ismertetõjegyeik vannak, mekkora a vonatkozó osztály (mennyiség)
Alapelvek 2: Kategória •
• • • •
Fogalmi kategória: Az ismérvek számának növelésével vagy csökkentésével az általánosítás különbözõ fokaira juthatunk. Végletesen létezik olyan állapot is, amikor a tartalmat mindössze egyetlen ismérv határozza meg. Ezeket a fogalmakat fogalmi kategóriáknak hívjuk. Az osztályozásban fontos szerepet kapnak, a szintén elég általánosnak tekinthetõ szakkategóriák A kategóriákból levezethetõ, de még kellõen általános fogalmakat alkategóriáknak hívjuk A facetták a fogalmi kategóriák olyan alkategóriái, amelyek egy-egy szakterület általános fogalmait, a felosztás speciális, különbözõ, elõre rögzített szempontjait képviselik egy adott tudományterületen A kategóriák kiindulópontjai lehetnek az egyes osztályozási rendszereknek
Alapelvek 3: Osztály • •
•
•
A fogalom a terjedelmét alkotó dolgok osztályát képviseli. Az elemek olyan nyílt összesége, melyet közös tulajdonságok, ismertetõjegyek jellemeznek Az osztályok elemei rendelkeznek az osztályra jellemzõ, valamennyi lényeges ismérvvel, a kitüntetett szemantikai jellemzõkkel, de ezen túl más megkülönböztetõ ismérvekkel is. Az osztályon belüli megkülönböztetés ezen eltérõ ismérvek alapján lehetséges Ha egy osztályon belül az elemek egy csoportja a kitüntetett szemantikai jellemzõk mellett más közös tulajdonságokkal is rendelkezik, alosztályt alkot. Pl.: állat (osztály) - emlõs (alosztály): oroszlán, kutya, bálna stb. A bálna, a kutya és az oroszlán mindegyike rendelkezik az állatfaj szemantikai jellemzõin túl közös ismérvekkel: elevenszülõ, emlõibõl táplálja kicsinyeit stb. Ezzel az állatok osztályán belül újabb csoportot képeznek: az emlõsök alosztályát Mind az osztály, mind a fogalom meghatározásából következik, hogy rájuk és az õket meghatározó ismérvekre alkalmazhatók a szimbolikus logika és a matematikai halmazelmélet megállapításai.
Alapelvek 3 folyt.: Müveletek osztályokkal •
•
•
Logikai müveletek: a fogalmak összekapcsolására az úgynevezett logikai operátorok használhatók. A legegyszerübb kapcsolatok a következõk : ÉS (logikai szorzás, metszet), VAGY (logikai összeadás, unió), NEM (logikai kivonás), nincs kapcsolat (diszjunkció), bennefoglalás (komplementer halmaz) Példák: ”állat ÉS négylábú” = négylábú állat; ”állat VAGY négylábú” = vagy állat, vagy négylábú, pl. asztal; ”állat NEM négylábú” = pl. madarak A logikai müveletek halmazmüveleteknek felelnek meg, amelyeket a Boole-algebra tárgyal és Venn-diagramok szemléltetnek
Alapelvek 4: Meghatározás és relációk • • •
• •
Meghatározás: valamely fogalom tartalmának értelmezése, a fogalmat alkotó lényeges ismérvek (reális ~: tudományos, nominális ~: mit jelöl a szó, verbális ~: mit jelent egy idegen szó) Reláció: halmazok, vagy egy halmaz elemei között megállapított kapcsolat Fogalmi reláció: a fogalmak vagy ismérvek közötti kapcsolatok – A reláció mind a matematikában, mind a logikában az alapfogalmak közé tartozik, de hasonlóan jelentékeny szerepet tölt be az osztályozásban is. Az osztályozás a fogalmi egységek közötti relációk kialakításának módszere. Tehát ilyen értelemben a relációk az osztályozás felépítését, vázát adják – Relációk vannak a szemantikában is (ld. nemsokára) Két fogalom közti reláció jelölése: aRb (”a R relációban áll b-vel”) A relációkat csoportosíthatjuk a kapcsolatok iránya alapján irányított és irányítatlan összefüggésekre: – Irányított összefüggés: a két fogalom közötti kölcsönös (két irányú) kapcsolat nem azonos, hanem más összefüggést képvisel. Tehát nem cserélhetõk fel. – Irányítatlan összefüggés: a két fogalom közötti kapcsolat fordítottja is ugyanazt az összefüggést képviseli.
Alapelvek 4 folyt: Irányított relációk • • •
•
1. Generikus reláció: fölé(F)alárendeltségi(A) reláció 2. Szerkezeti reláció: egész(T) - rész(P) reláció 3. Irányultsága(R) – függõsége, eredménye (E): okozat - ok eredmény - eredet termék - elõidézõ rendeltetés - eszköz tárgy - alap következmény - kiindulás, stb. 4. Irányított jellemzõ (X): tulajdonsága mozgása helye ideje anyaga személyi vonatkozása, stb.
• • •
•
rovar – bogár (rovar: fölérendelt, bogár: alárendelt) könyv – címoldal (könyv: egész, címoldal: rész) forgács – forgácsolás (forgácsolás: elöidézö, forgács: termék); vagy: toll - írás (az írás eszköze a toll, a toll rendeltetése az írás)
labda – piros (a labda tulajdonsága, hogy piros); ló - vágta (a ló mozgása a vágta), stb.
Alapelvek 4 folyt: Irányítatlan relációk •
•
5. Irányítatlan jellemzõ (X): közös fölérendelt hasonlóság ellentét, stb. 6. Ekvivalencia reláció: a közös tulajdonságokkal rendelkezõ fogalmakat gyûjti össze. Vagyis a szinonímákat (hasonló jelentésû szavak) és kváziszinonímákat (majdnem teljesen hasonló jelentésû szavak) egy helyre rendezi.
•
•
apa – anya szülõ madzag - kötél világosság - sötétség stb. kutya - Hund, kutya – eb: különbözõ nyelvû alakváltozatok, illetve a szinonímák között
Relációtulajdonságok • •
•
•
Reflexív (visszaható), ha egy elem egy adott relációban áll önmagával: aRa Például a Szegeden születettek halmaza; reláció: ugyanott született, mint. Irreflexív (nem visszaható) egy reláció, ha az elõzõ azonosság nem áll fent. Szimmetrikus egy reláció, ha a kapcsolatban álló fogalmak sorrendje felcserélhetõ, az adott reláció oda-vissza: aRb és bRa Például Sándor és Géza barátok. (Sándor barátja Gézának, és ugyanakkor Géza is barátja Sándornak.) Aszimmetrikus egy reláció, ha a kapcsolatban álló fogalmakat felcserélve más relációt kapunk. Például minden bogár rovar, de nem minden rovar bogár. Megjegyezzük, hogy asszimetria esetén is fennállhat aRb és bRa, de csak akkor, ha a = b. Egyértékû egy reláció, ha egy fogalom mindig csak egyetlen másik fogalomhoz kapcsolódik az adott relációban. Például Géza anyja Katalin. Többértékû egy reláció, ha egy fogalom több fogalomhoz is kapcsolódhat ugyanazzal a relációval. Például a kutya fölérendeltje a háziállat és az emlõs is. Tranzitív egy reláció, ha fennáll a következõ azonosság: aRb és bRc aRc. Például az emlõs alárendeltje a háziállat, a háziállat alárendeltje a kutya, tranzitívitás esetén az emlõs alárendeltje a kutya is. – A tranzitívitásnak fontos szerepe van az osztályozásban. Segítségével többek között hierarchialáncokat képezhetünk (emlõs - háziállat - kutya spániel).
Szemantikai relációk • •
•
Két szó egymással a helyettesíthetöségük arányában ekvivalens, a.m. jelenti ugyanazt (Lyons 1968) Jelentésrelációk (sense relations) két vagy több szó között: – Teljes szinonimia: ENSZ – Egyesült Nemzetek – Kváziszinonimia: kutya – eb – Összemérhetetlenség: kutya – Egyesült Nemzetek – Meronimia / holonimia (része-egésze stb.): ujj – kéz, fa – erdö – Hiponimia / hipernimia (nem-faj stb.): bíbor, karmazsin, kármin – vörös – Homonimia (poliszémia): daru1 – daru2 – Antonimia: háború – béke, hosszú – rövid, meleg - hideg Jelentöségük a tezaurusz- és ontológia-építésben van
WordNet ontológia szótári jelentéssel kiegészítve
III. rész: Könyvtári osztályozási rendszerek tipológiája •
• •
Osztályozáselméleti iskolák – Tudományfelosztáson alapuló osztályozások – Nyelvészeti irányzat – A statisztikai iskola A könyvtári osztályozás célja Az osztályozási rendszerek, információkeresõ nyelvek tipológiája
Tudományfelosztáson alapuló osztályozások: föbb tudnivalók és fogalmak • • • • • •
A 19. sz. második felében alakultak ki Filozófiai tudományfelosztás + természetes logika (a klasszikus logika szabályai szerint) Szerkezetük hierarchikus Pl. Dewey Tizedes Osztályozása, Cutter Kiterjesztõ Osztályozása, az Egyetemes Tizedes Osztályozás, a Library of Congress rendszere, Ranganathan Kettöspontos Osztályozása stb. Egy adott kornak a dokumentumokban megjelenő ismérveit tükrözik Korlátaik: – Szigorú logikai elvek határozzák meg – Nem lehet átfedés: !! egy tudományág : egy hely egy könyv : egy hely !! – Nehézkessé válhatnak /nehezen fejleszthetőek
Nyelvészeti irányzat: föbb tudnivalók és fogalmak •
Információkeresõ nyelvek: a 20. század elejétõl. IKNY és osztályozás szinonímák osztályozás = mesterséges nyelv – – –
•
A tartalom legkisebb egységei: – – – – – –
•
Mondattan + szótár a dokumentumból (mondat- + szójelentés) Milyen szótárai lehetnek az IKNY-nek: nagyon rendszerfüggö. Pl osztályozási táblázat (pl. 943.9 = Mo. története); tárgyszójegyzék; tezaurusz; ontológia A szócikkek pl. tezauruszcikk. A szócikkekben a szavak által jelölt fogalmakat összetartó kapcsolatokat értelmi összefüggéseknek nevezzük. Az információkeresõ nyelvek értelmi összefüggései a rendszer szerkezetét képzõ irányított/irányítatlan relációk Szövegszó: a szövegben ténylegesen, változatlan alakban elõforduló szó Címszó: a címben ténylegesen elõforduló szövegszó Kulcsszó: az információ lényegére jellemzõ, a tartalmi fetárásra alkalmas szövegszó Tárgyszó: a tartalmat röviden, tömören, egyértelmûen kifejezõ, természetes nyelven megfogalmazott szabványosított szó Deszkriptor: a legáltalánosabb információkeresõ nyelvi kifejezés, mely az információk feltárására, tárolására és visszakeresésére közvetlenül felhasználható (ld. tezaurusz) Nemdeszkriptor: az információk feldolgozására és keresésére közvetlenül nem, csak a vele összekapcsolt deszkriptor útján vagy annak figyelembevételével használható kifejezés (pl utalók, ld tezaurusz)
Mire jó a nyelvszerüség? Segítségével a dokumentum tartalma dokumentumképpé (szurrogátum 1) alakítható át, a természetes nyelvü felhasználói kérdés keresökérdéssé (szurrogátum 2) alakítható át. Szurrogátum 1 & 2 viszonya alapján rangsoroljuk a válaszokat = információkeresés
Statisztikai irányzat: föbb tudnivalók és fogalmak • •
•
A matematika szűkebb területeinek felhasználása elméletben és gyakorlatban Elvei: – Alapja a természetes nyelv – Ennek statisztikai törvényszerűségeit állapítja meg – Ezek alapján hozza létre osztályait Számítógépek megjelenése lehetőség szöveges információk nagy tömegének kezelésére automatikus osztályozás
A könyvtári osztályozás célja • • • • •
Az információk és hordozóik, a dokumentumok visszakeresésének biztosítása Ennek érdekében az információkeresõ rendszernek képesnek kell lennie egyedi információk leírására, osztályok alkotására és a kialakított halmazok, ismérvek esetenként változó csoportosítására is Azt az eszközt, mely segítségével az osztályozást végezzük, osztályozási rendszernek, vagy mint láttuk, információkeresõ nyelvnek hívjuk Az osztályozási rendszer hármas feladata: az információk tartalmának leírása, tárolása és a lehetõleg többszempontú visszakeresés biztosítása Csoportosíthatók: – Az alkalmazott nyelv szerint – Az osztályozási módszerek szerint – Mélységük szerint – Szerkezetük szerint – Tartalmuk szerint – Az automatizálás mértéke szerint – A felhasználás célja szerint
1. szempont: Az alkalmazott nyelv szerint •
Természetes nyelven alapulók: – –
–
–
•
Szövegszavas: osztályozási kifejezések változtatás nélkül a dokumentum címébõl, eredeti szövegébõl, pl. kulcsszó. Osztályozás mélysége = dokumentumok tárgyalásának mélysége. Szabályozott nyelvû: rögzített szabályrendszerek határozzák meg a szóalakokat és ezek használatát, pl. tárgyszavas, deszkriptoros rendszerek stb. Segítségükkel lehetõség nyílik az eltérõ szóalakok egységesítésére a homonímák és szinonímák megfelelõ kezelésére. Elönyök: mindkettö közvetlen kapcsolatban áll az aktuális szaknyelvvel. A betûrendes szerkezet és a szavak függetlensége következtében viszonylag könnyû követni a terminológiák, a tudományos eredmények változását is. Mind egyedi infomációk, mind csoportok leírására alkalmasak. Hátrányuk: az osztályozási rendszer használatán keresztül nem kapunk semmilyen képet a tudományok, adott szakterület egészére, felépítésére stb. vonatkozóan. Az IKNY egy adott nyelvhez, sõt könyvtárhoz kötött.
Mesterséges nyelven alapulók: a dokumentumok tartalmát kódokkal, szimbólumokkal írják le, pl. ETO. –
–
Elõnyeik: a rendszerek könnyen áttekinthetõk, a jelzetek egyértelmûek, alkalmasak egyetemes és nemzetközi osztályozásra. Hátrányaik: a tudományok átalakulásait, változásait nehezen képesek követni, a kódokat és az adott struktúrát meg kell tanulni, gépi adatfeldolgozásra nehézkesen használhatók.
Az alkalmazott nyelv természetes nyelv •
Kulcsszó: – Átmeneti elem a formai feldolgozás és tartalmi feltárás között (pl. címek tartalmilag releváns szavai) – Könyvtári rendszerekben: címekben, szerzőségi közlésben fordul elö – Tágabb értelemben származhat a tartalmi feltárásból is – Peter Luhn KWIC (Keyword-In-Context): a jellemző kifejezések előfordulnak / annál többször, minél lényegesebbek
Az alkalmazott természetes nyelv szabályozott •
•
•
Természetes nyelvű kulcsszavak szabályozása: – Szóalakok összevonása – Homonímák megkülönböztetése – Szinonímák elemzése Tárgyszó: egy tárgykört vagy annak részletét a legrövidebben megfogalmazó kifejezés – Szabványosított – Természetes nyelvű – A dokumentum tartalmi jellemzésére felhasználható – Lehetővé teszi a tárgyi alapú visszakeresést Információs tezaurusz – Az osztályozási kifejezések egymás közti (nyelvi/logikai) kapcsolatainak szabályozása fogalmi összefüggéseik feltüntetésével – Lexikai egysége a deszkriptor: • Az információk feltárására és keresésére közvetlenül alkalmazható, tartalmilag kitüntetett kifejezés
Az alkalmazott nyelv mesterséges nyelv •
A dokumentumok tartalmát kódokkal, szimbólumokkal írja le, pl. számokkal: Dewey, ETO
2. szempont: Az osztályozási módszerek szerint •
Hierarchikus (példa: prekoordinált, tezaurusz, ETO): – Az osztályozandó fogalmakat egyetlen egésznek fogják fel, s valamilyen szempont alapján részekre bontják. – A hierarchiát mindig a legáltalánosabb fogalomtól lefelé építik. – Az értelmi összefüggések közül a tranzitív tulajdonságokkal rendelkezõ relációkat (generikus, szerkezeti) használják fel a fogalmi láncok kialakítására – Az alá- és fölérendeltséggel kialakított hierarchia-szinteket terminológiailag is megkülönböztetik egymástól. Például az ETO-ban fõosztály, osztály, alosztály, szakcsoport stb. – Lehet monohierarchikus (enumeratív): egy fogalomnak csak egyetlen fölérendelt fogalma lehet, egy helyen szerepel. Egyszerü használni, merev – Vagy polihierarchikus (analitikus-szintetikus): a fogalomnak több fölérendeltje is lehet, tehát a felosztás több dimenziós, a fogalom többhelyütt.
•
Mellérendelö: fogalmai önállóak és egymástól függetlenek, az osztályozási kifejezéseket semmilyen szabály nem rendeli egymáshoz, azokat mindig az osztályozandó dokumentumok halmaza határozza meg. Gyakran természetes nyelv = IKNY. Példa: posztkoordinált tárgyszó; Ranganathan
Az osztályozás módszere hierarchikus • • • • •
Újabb szintek beillesztése megoldható Az egyes fogalmak részletezhetők A bontások (= pl történelem; magyar történelem stb.) döntési pontok: csak egy felosztást lehet a további bontás alapjának tekinteni merevek; gráf; nem lehet ad hoc bontogatni A dokumentumok tartalmának differenciált feltárására nem alkalmasak Nem kedveznek a visszakeresésnek
Az osztályozás módszere mellérendelő Fogalmai: • • • •
Önállóak (kulcsszó, tárgyszó) Egymástól függetlenek Természetes nyelvűek Egy-két szintig bármely kapcsolatot ki tudnak fejezni, de sekély hierarchia; betürendben a tárgyszavak, pl történelem, angol; történelem, magyar (hátravetett jelzö)
3. szempont: Mélységük szerint •
Generalizáló: – Átfogó problémák leírására szolgáló rendszerek, osztályozási fogalmai általánosak – Elsõsorban a nemzetközi információcserében és a szakterületek speciális információkeresõ nyelveinek összefogásában van jelentõségük
•
Individualizáló:
– Mély tartalmi feltárást biztosítanak – Egyedi információkat írnak le – Jelentõségük az ilyen jellegû információk iránti megnövekedett érdeklõdés miatt igen nagy
4. szempont: Szerkezetük szerint •
Prekoordinált: pl. ETO – Az osztályok sorrendje, kapcsolatrendszere, az osztályozási fogalom helye eleve meghatározott, így független a dokumentum tartalmától – Az osztályozási folyamat a (numerikus, alfanumerikus) jelzethez való besorolással, illetve az osztályozás céljára felhasznált ismérvek koordinálásával, azaz a jelzetelemek meghatározott szabályok szerinti összekapcsolásával, a jelzetalkotással lezárul (szintaxis)
•
Posztkoordinált: pl. tárgyszavazás
– A lexikai egységek a dokumentum tartalmától függõen rendelhetõk egymás mellé – A fogalmak sorrendje elõzetesen nem szabályozott – Az osztályozási munka befejezéseként az ismérvek összekapcsolása elmarad – Az elemzést nem követi jelzetalkotás. Az elemek összekapcsolása a keresés szakaszában, a keresõ által meghatározott szempontok szerint jön létre
5. szempont: Tartalmuk szerint •
Egyetemes: – Felölelik az emberi tudás egészét, az ismeretek teljes körét – Osztályozásukban a különféle szakterületek fogalmait összehangoltan rendezik el
•
Speciális (szakterületi, autonóm): – Egy-egy tudományterület, szûkebb szakterület, ágazat ismereteit foglalják magukba – Figyelemmel vannak az adott szakterületen mûködõ szakemberek, kutatók sajátos igényeire és szokásaira is
6. szempont: Az automatizálás mértéke szerint • • •
Ha az osztályozásás munkafolyamataiban nem használnak gépi megoldásokat, akkor a rendszer nem automatikus Gyakori, hogy a lexikai egységek megállapítása intellektuális úton történik, míg a rendezés és a szelektálás számítógéppel. Ez a rendszer félautomatikus Az automatikus osztályozási rendszerekben mind az osztályozási fogalmak meghatározását, mind csoportosításukat géppel végzik
7. szempont: A felhasználás célja szerint • • •
Tudományokat osztályozó (filozófiai, történeti stb.), Ismeretközvetítõ (könyvtári, bibliográfiai, dokumentációs stb.) Ismeretszervezõ (kutatási, irányítási stb., knowledge organization). – Az ismeretszervezés elmélete, mely e három közül a legösszetettebb és legpraktikusabb is egyben, egészen új területnek számít az információkeresõ nyelvek elméletében – ”A KO az osztályozás szervezésének (a fogalmi hozzáférés struktúrájának) optimalizálásával foglalkozik az ismereteket tároló intézményeknél vagy szolgáltatatásoknál, hogy megkönnyítse az információ visszakeresését, új ismeretek szintetizálását és megosztását felhasználói csoportok számára (...), valamint hogy stratégiai jelleggel, hosszú távra azonosítson minden ismeretforrást és –áramlást, kihasználásukat és továbbfejlesztésüket, szem elött tartva hozzájárulásukat az intézmény vagy szolgáltatás által termelt üzleti értékhez”, vö. http://www.infoloom.com/gcaconfs/WEB/paris2000/S22-02.HTM#N29
IV. rész: Rövid osztályozástörténet •
Tudományfelosztáson alapuló osztályozások – Hierarchikus osztályozási rendszerek (Dewey, ETO) – Mellérendelö osztályozási rendszerek (Ranganathan)
•
Nyelvészeti irányzat – – – –
•
Tárgyszókatalógusok Indexek Információs tezaurusz Ontológia
Statisztikai irányzat – Automatikus osztályozás – Automatikus kategorizálás
Tudományfelosztáson alapuló osztályozások: Hierarchikus rendszerek • • •
•
Az elsö információrobbanás: Gutenberg A második: 19. sz. – Az elsö referálólap: Chemisches Zentralblatt [1829] – Gyüjteményszervezési problémák: tematikus rendezés hogyan? Számos újkori példa a tizes felosztásra (10 osztály: Leibniz [1691-96], Bolyai Farkas [1833], Ampére [1984], Shurtleff [1856], Dewey [1873-76], Otlet & LaFontaine [1894]) – Új a közös alosztások gondolata (Dewey, Cutler, ETO) Hármas rendszer [Harris 1870]: tudomány, müvészet, történelem (Bacon alapján) – Bacon: Instauratio magna (1605) • a tudományos megismerés alapja a tapasztalat • az emberi értelem feladata a tapasztalatok feldolgozása, általánosítása • három forrás (emlékezet történelem; képzelet müvészet; értelem bölcselet)
Hierarchikus rendszerek: Dewey •
1885 Dewey Decimal Classification = DDC (Tizedes Osztályozás) – Sikeres fiatalkori munka alapján (1876) – Alapja: filozófiai tudományfelosztás – Jelzeteit gyakran összekapcsolják a Kongresszusi Könyvtár tárgyszavaival (LCSH) és osztályozási jelzeteivel (LCC) – 30 nyelvre fordították le – 2000 elején 22 keresőszolgáltatás használta – 1876-ban ezer jelzet sem, 3 jegyig kidolgozva; 1959 [16. kiad.] 50.000 jelzet – Svédországban pl most vezetik be a SAB nemzeti tárgyszórendszer helyett
Dewey folyt. •
Jellemzői: – Gyakorlati jellegű – Jelzetelés: tizedes törtek használata – A tizes számrendszer merev keretei között mechanikus: tíz főosztály tíz-tíz osztály tíz-tíz alosztály
Dewey folyt. • • • •
Közös (pl irodalom lehet angol; történelem is) alosztások: formai, nyelvi, földrajzi, irodalmi műfajok (nullával kezdődő számjegyek) A nyelvek jelölése a nyelvészet és az irodalom osztályaiban megegyező számjegyekkel A földrajzi helyek jelölésére külön függelék – minden földrajzi helynek egy jelzet, hátul, kitalálta nekik A hierarchikus táblázat mellett betűrendes mutató (relatív index - a szakrendszer szerves része) oda-vissza (szám-nyelv)
Dewey folyt. • •
Formai alosztások: 01 Bibliográfia, 02 Kézikönyv, 03 Szótár, 04 Értekezés, 05 Folyóirat, 06 Társasági kiadvány, 07 Oktatási anyag, 08 Gyûjtemény, 09 Történet. Tudományfelosztás és jelzetek: – – – – – – – – – –
•
100 Filozófia és rokontudományok 200 Vallás 300 Társadalomtudományok 400 Nyelvészet 500 Természettudományok 600 Hasznos tudományok 700 Müvészetek 800 Irodalom 900 Történelem (a 0 osztály formai csoportjai nem képeznek tárgyi fõosztályt)
Jelzetelés pl.: – – – –
510 Matematika (általában) 510.9 A matematika története (az 510.09 helyett) 420 Angol nyelvészet 820 Angol irodalom
Kettöspontos osztályozás: Ranganathan • • • •
•
Shiyali Ramamrita Ranganathan (1892-1972) Felismeri, hogy az osztályozás is nyelv Nem a fogalmakból indul ki, hanem az egyes szakterületek fõ ismérveit, elemeit sorolja fel táblázataiban, és a mûvek tartalmának kifejezésére ezeket, illetve ezek jelzeteit egyesíti, szintetizálja Az analitikus-szintetikus osztályozásnak ez az értelmezése mély elemzõ munkát tételez fel, amelyet elõször a fogalmak elemzése szintjén kell elvégezni, azután az elnevezések szintjén kell megfogalmazni, és ezt követõen lehet rátérni a jelzetelés szintjén a szakjelzet megalkotására A 108 fõosztály (1972) sorrendje elvi szempontból a következõ: – Általános mûvek – Bevezetõ tanulmányok – Természettudományok és mûszaki tudományok – Humán tudományok – Társadalomtudományok
Ranganathan: jelzetszerkesztés • •
•
•
• • • •
Az osztályokon belül nem, vagy csak alig ad meg alosztályokat Kidolgozta az egyes szakterületek speciális kérdéseinek, problémáinak jellemzésére, illetve jelölésére szolgáló ismérvek (karakterisztikák) táblázatait. Ezek egy-egy meghatározott szempont alapján sorolják fel az ismérveket ún. facettákba osztva, és a jelölésükre szolgáló izolátokat (alosztásokat) az egyes facetták táblázatában tizedes számokkal jelölte A tartalomra megadható izolátok jelzeteit különféle írásjelekkel kell összekapcsolni megadott szabályok szerinti sorrendben. Eredetileg az ismérvek kapcsolásának legfontosabb írásjele a kettõspont (colon) volt, és innen ered a Kettõspontos Osztályozás (Colon Classification) elnevezés is. A mûvek tartalmának a fogalmak szintjén való analízise alapján a könyvtárosnak kell a szakjelzeteket összekapcsolnia a megadott szabályok szerint. Ezért nevezte Ranganathan a CC-t az elsõ analitikus-szintetikus osztályozásnak Valamennyi osztály számára öt alapkategória: PMEST – aspektusok (facetták) Egyediség (perszonalitás, P); anyag (matéria, M); energia (E); térbeliség, hely (spatium, S); idöbeliség (tempus, T) Betürendes index a föfacettákhoz Noha már alig használják, nagy hatása volt világszerte, és a mellérendelö, többszempontú indexelés gondolatával megalapozta a mai számítógépes szolgáltatásokat
Hierarchikus rendszerek: ETO • •
• •
•
Mandello Gyula Paul Otlet, Henry LaFontaine: Dewey hozzájárulásával, de a TO-n nagyot alakítva Formai eltérés: a fogalmak hierarchikus felépítésének jobb felismerhetõsége érdekében a "háromjegyû minimum" elvét elvetették, és a fõosztályokat egy, az osztályokat két, az alosztályokat három számjeggyel jelölték Lényeges: a jelzetekkel kifejezett fogalmak összekapcsolását lehetõvé tették a relációk A komplex fogalmak jelölésére, továbbá a Deweynél még csak csírájukban található alosztásokat külön táblázatokká fejlesztették: – Az ún. segédtáblázatokban a minden osztályban alkalmazható (általánosan közös) alosztások – A fötáblázatban az egyes osztályokban, szakterületeken belül használható speciális (korlátozottan közös) alosztások sorozatait Mindezzel megnövelték az osztályozási rendszer flexibilitását, a TO enumeratív, monohierarchikus struktúráját az analitikus-szintetikus osztályozási rendszer irányába tágították ki
ETO folyt. • • • • • •
A fogalmak hasonlóságán és különbözőségén alapul Fogalmak alá- és fölérendeltségét fejezi ki Mindig a tágabb fogalom alá rendeli a szűkebb fogalmakat Magyarországon a legelterjedtebb osztályozási rendszer (még mindig sok könyvtár használja, miközben online is van már, de ebben szakoznak; nem merik kidobni, 40 év; polcrendszer alapja az SZTE könyvtárában) A természetes nyelvektől független jelzetek: számjegyekből, írásjelekből, betűkből A tizedes törtek rendszerének szabályai szerint épül fel
ETO folyt. • • • •
•
Átfogó osztályozási rendszer 60 000 osztályból és a segédtáblázatokból áll Teljes kiadás négy, rövidített 20 nyelven Típusai: – Teljes kiadás (kb. 120-200 ezer fogalom) – Közepes kiadás (kb. 50-60 ezer fogalom) – Rövidített kiadás (kb. 15-25 ezer fogalom) – Speciális (szakágazati) kiadások Internetes szolgáltatásokban is alkalmazható (2000 elején 11)
ETO jelzetalkotás Fötáblázat osztályai: • 0 Általános tartalmú mûvek • 1 Filozófia, pszichológia • 2 Vallás, teológia • 3 Társadalomtudományok • 4 (1964 óta betöltetlen fõosztály, eredetileg Nyelvészet) • 5 Alaptudományok. Matematika. Természettudományok • 6 Alkalmazott tudományok • 7 Szépmûvészetek. Iparmûvészetek. Szórakozások, játékok, sport • 8 Nyelvészet. Irodalom • 9 Régészet. Földrajz. Életrajz. Történelem
Pl alosztályokra bontás: • 6 Alkalmazott tudományok • 62 Mûszaki tudományok • 621 Általános gépészet • 621.3 Elektrotechnika • 621.39 Híradástechnika • 621.396 Rádiótechnika • 621.396.6 Rádióberendezések • 621.396.61 Rádióadó berendezések Alosztások rendszere: • Àltalánosan közös alosztások • Korlátozottan közös alosztások
ETO folyt. Kereshetősége: • •
A számformátumú jelzeteknek nincsenek nyelvi korlátaik (nyelvfüggetlen, fogalmi nyelv) Nem felhasználóbarát osztályozó rendszer: – Fogalmaira az ETO-számok természetes nyelvű feloldásait ismerve lehet keresni – A központozások / mellékjelek használata bonyolult
Nyelvészeti irányzat: Tárgyszavas osztályozás és tárgyszókatalógusok • •
Alkalmas leírásra, tárolásra és visszakeresésre Leírásra a természetes nyelv szabályozott szavait, szóösszetételeit használja – Osztályozási eszköz is – A rendszerben az osztályozói fogalmak egymástól függetlenek, közöttük értelmi összefüggések nem, vagy csak esetlegesen vannak (mellérendelõ)
• •
• •
Tárolás a tárgyszókatalógusban Lehetõség van a fogalmak utólagos összekapcsolására, valamint a keresõképhez igazítására a visszakeresés során (posztkoordináció) Biztosítja a többszempontú visszakeresést Fogalomszervezési szintje sekély, a módszer viszont rugalmas és gépesíthetö
Tárgyszavas osztályozás •
Tárgyszó: – – – –
•
Nyelvtanilag szabványosított formájú Természetes nyelven alapuló kifejezés A dokumentum, információ lényegének leírására alkalmas Rövid, tömör, egyértelmű
Három megoldás ismert: – A tárgyszavakat a szövegbõl emeljük ki, s változatlanul, vagy alaktani változásokkal építjük be az osztályozási rendszerbe. – A szavakat a szövegbõl emeljük ki, de ezeket az osztályozási rendszerben azonos fogalmat jelölõ, ám más megnevezéssel illetett tárgyszavakra cseréljük, ha a kiemelt kifejezés nem esik egybe a rendszerben elfogadott megnevezéssel. – A tartalmat a szövegben nem feltétlenül szereplõ tárgyszóval jellemezzük, s szabályozott alakban a rendszerbe illesztjük
•
Az eredmény: – Szabad tárgyszavas osztályozás: bármely szó felhasználható, nincs elõre kidolgozott szótár, de szabványosított alak kell (normalizálás) – Kötött tárgyszavas osztályozás: már meglevö szótárt, szókészletet = tárgyszójegyzéket használunk
Tárgyszóként használhatók • • • • • • • • •
• • • • • •
Tudományszakok, diszciplinák nevei, pl. atomfizika, irodalomtörténet stb. Tudományos elméletek nevei, pl. relativitáselmélet, vezetéselmélet stb. Tudományos iskolák vagy irányzatok nevei, pl. reneszánsz, statisztikai irányzat stb. Tudományos problémák, eljárások, gyakorlati alkalmazások nevei, pl. határozatlansági reláció, gazdálkodás stb. Tudományos szakkifejezések, pl. káló, esszé stb. Objektumok, élõlények, dolgok nevei, pl. könyv, kutya, olvasók stb. Folyamatok, történések nevei, pl. változás, születés stb. Tudományos módszerek megnevezései, pl. kísérlet, modellezés stb. Tartalmi és formai tulajdonságok megnevezései, pl. keménység, bibliográfia stb. Intézmények, szervezetek, testületek nevei, pl. Somogyi-könyvtár, Magyar Tudományos Akadémia stb. Események nevei, pl. trianoni békekötés, honfoglalás stb. Földrajzi nevek, pl. Duna, Hódmezõvásárhely stb. Korszakok, idõpontok és idõtartamok nevei, pl. l984, Kádár-korszak stb. Személynevek, alkotások címei, pl. Németh László, József és testvérei stb. Közismert rövidítések, pl. IFLA, KFKI stb.
A tárgyszóalkotás szabályai •
Tartalmi szabályok: – A lehetö legspecifikusabb kifejezés(eke)t válasszuk – A specifikusság szintje függ a könyvtár típusától (pl Cegléd vs MTA) – Hivatkozások besegítenek • Lásd még: generikus specifikus • Lásd utaló: kerti munka munka, kerti
•
– A dokumentumok tartalmát a keresönyelven írjuk le – Alapvetö a következetesség Formai szabályok: – Morfológiai szempont: • Előnyös, ha főnév • Jelzőt csak szerkezetben lehet használni • Lehetőleg egyes számban használjuk (kivéve csoportok, gyűjtőfogalmak neveit és a plurale tantum-okat (aminek csak többes számban van értelme, vagy többesben más a jelentése, mint egyesben – medium/media; vö. tollazat, madarak vs. tollazat, pinty)
– Szemantikai szempont: kezelni kell • A szinonimákat (a rokon értelmű fogalmakat) • Homonimákat (azonos alakú, de különböző értelmű szavakat)
Formai szabályok folyt. •
Szerkezete, megjelenése szerint a tárgyszó egyszerü (egytagú) vagy összetett (többtagú) – Az összetett tárgyszó részei: fõtárgyszó, altárgyszó, melléktárgyszó – Az összetett tárgyszavak elsõ tagja a fõtárgyszó, pl. osztályozás. – Az altárgyszó a fõtárgyszó tagolására szolgáló, inverzió útján keletkezett tárgyszó, pl. osztályozás, automatikus. – A melléktárgyszó a fõtárgyszó pontosabb értelmezését szolgáló, nem inverzióval keletkezett tárgyszó, pl. leltározás (könyvtár). De a homonímák után szükséges tárgyszó is melléktárgyszó, pl. rák (betegség).
•
Összetettnél alkotóelemek sorrendje - próbálkozások: – Elöl mindig a fönév áll (de pl matematikai statisztika) – Tárgyszóláncok permutációja: mindegyik kerül vezetö helyzetbe
•
Általánosságban: minél több tárgyszó sorolható be egynél több kategóriába, az osztályozás egyértelmûségének biztosítása érdekében annál indokoltabb a kategóriák jelölése
A tárgyszókatalógus alapjai folyt. • • •
A feltárás eszköze: a tárgyszavak alapján létrehozott betűrendes katalógus Cédulák egymást szoros betűrendben követik a formailag - alakilag hasonló tárgyszavak (és nem fogalmak) kerülnek egymás mellé (vö. lexikonok, szótárak, tárgyszavas könyvkatalógusok) A keresés hatékonyságát javítják az utalók: – Szinonima utaló: egyes névvariánsról szabványosra, eb ld kutya – Szintagma utaló: az összetett tárgyszó preferált alakjára, mellérendelö osztályozás ld osztályozás, mellérendelö – Hivatkozás: egy további helyet is megjelöl a keresésre, vívás ld kardvívás
•
Kétféle tárgyszókatalógus van: tiszta és rendszerezö
A tárgyszókatalógus típusai •
Tiszta: a specifikus tárgyszó elvére épül – A tárgyszavak egymással mellérendelõ viszonyban vannak – A tárolás és visszakeresés pusztán formai jegyek alapján, mechanikus betûrendben történik – A használó rendszerint az összetett tárgyszavak elsõ tagjára kereshet, esetenként találkozhat invertált alakokkal is – A tárgyszavak a fogalmak különbözõ hierarchia szintjein vannak, s általában képtelenek fogalmi szintek kifejezésére. – Például: • raktár raktáros rendelés rendelés-keret rendezvény rendezvénynaptár
•
Rendszerezö: – Betûrend + valamilyen struktúra – A tárgyszó kiválasztásakor általánosabb és specifikusabb fogalmakat is használnak – Szerkezetét tekintve két altípusa van: bokrosító és alárendelõ tárgyszókatalógus
Rendszerezö tárgyszókatalógus folyt •
Bokrosító: – A tárgyszavak nagy része mechanikus betûrendben, de ha a használat úgy kívánja, a tárgyszavak egyrészét felbontja részfogalmakra, s ezek fõtárgyszó-altárgyszó szerkezetûek lesznek – Gyakran invertálással hozzák létre. Az invertálás eredményeként az amúgy szétszóródó fogalmak egy helyre gyûlnek – Egy-két hierarchia szintnél nem képes többet kifejezni – Például: • állam állományalakítás állományellenõrzés bibliográfia - ajánló - bio - nemzeti - másodfokú - szak
bibliográfiai leírás
Rendszerezö tárgyszókatalógus folyt •
Alárendelö: Többnyire egytagú kifejezéseket használ, s ezek az általánosítás különbözõ fokain foglalnak helyet – A tárgyszavak elrendezése az eddigiektõl eltérõen fogalmi szintek figyelembevételével történik – A betûrend csak az azonos hierarchia szinteken belüli rendezõ elv – A rendszer az áttekinthetõség érdekében 5-6 alárendelési szintnél többet nem alkalmaz – Példa: • mechanika - folyadékok - - felszíni jelenségek - - - felületi feszültség - - - kapillaritás - - hidrodinamika - - hidrosztatika - - kinetikus folyadékelmélet - légnemûek - - aerodinamika - - kinetikai gázelmélet - mechanikai rezgések
Alárendelö rendszerezö tárgyszókatalógus folyt •
Mutatók:
– Szerkesztéssel karbantartás a bövülés során – A betûrendes mutató a katalógusban használt tárgyszavak és altárgyszavak betûrendes jegyzéke, melyet elsõsorban az alárendelõ rendszereknél használunk. – A szakrendi mutató - szisztematikus index - szakterületenként csoportosítja az elõforduló tárgyszavakat
A tárgyszókatalógus alapjai Rendszerező tárgyszavas rendszer: • • •
Átfogó fogalmak altárgyszavak (vö alosztás; történelem vs angol történelem) Az azonos témakörökkel foglalkozó információk egy helyen találhatók Rendszerező tárgyszókatalógusok: egy-egy csoporton belüli bontás – Formai – Földrajzi – Időbeli – Tárgyi szempontok alapján alkatalógusokra bontva
Nyelvészeti irányzat: Indexek • • •
Index: általános értelemben mutató, itt: jellemzök rendezett jegyzéke (tárgymutató, névmutató, szerzõ, cím, tartalom, testület, kiadó, ISBN, képlet stb.) A rendezett ismérvek szerint a dokumentumok visszakereshetök, ergo osztályozási végtermék Gépi vagy kézi, kurrens vagy retrospektív, többnyire egynyelvü
Gépi indexek •
•
Jellemzöi: – Létezõ vagy virtuális dokumentumgyûjteményeket indexelnek – A használt osztályozási kifejezések nem intellektuális tevékenység eredményei, hanem félig-meddig mechanikusan, a dokumentum címébõl vagy szövegébõl származnak – Az osztályozási kifejezéseket nem kiragadva, hanem valamilyen szövegkörnyezet, tárgyszólánc stb. feltüntetésével adja meg – Az osztályozási kifejezések rendezésére ciklikus permutációt használ Fajtái: – Címindex – Kulcsszóindex – Tárgyi index – Hivatkozási index
Gépi indexek folyt • • •
Kulcsszó: az információ lényegére jellemzõ, a tartalmi feltárásra alkalmas szövegszó Kulcsszóindex: ha a kulcsszó kiválasztáshoz nemcsak a címet, hanem az egész szöveget feldolgozzák Címindexek: a dok tartalmának leírására az eredeti címbõl, a módosított vagy kiegészített címbõl, esetleg a mesterségesen alkotott címbõl származó kulcsszavakat használ. Ha jó a cím... – KWIC (Luhn 1959): ”keyword in context”, normalizálás, permutálás – Példa: • finanszírozásának problémái és a könyvtárügy.+ A kultúra • könyvtárügy.+ A kultúra finanszírozásának problémái és a • kultúra finanszírozásának problémái és a könyvtárügy.+ A – KWOC: ”keyword out of context”, normalizálás, permutálás – Példa: • Finanszírozás A kultúra finanszírozásának problémája és a könyvtárügy • Könyvtárügy A kultúra finanszírozásának problémája és a könyvtárügy • Kultúra A kultúra finanszírozásának problémája és a könyvtárügy
Gépi indexek folyt •
Tárgyi / tárgyszóindex: – – –
•
Kötött, néha kötetlen szókészletet is képes kezelni Gyakran nagyon hasonlítanak a címindexekhez, ám a tárgyszóláncok megalkotása komoly intellektuális tevékenység A számítógép kész tárgyszóláncokat kap s ennek alapján állítja elõ a tárgyi indexet. Az elõállításnak különbözõ szabályai vannak.
Pl permutált tárgy index. Fajtái: –
Sima permutált tárgyszóindex: az indexelö a fontos tárgyszavakat a lánc elemeiként, a.m. egyedként fogja fel; a gép ciklikusan permutálja, majd elsõ tagjuk szerint betûrendbe rakja • •
–
Lánceljárásos permutált tárgyszó index: a tárgyszavakat nem önálló, különálló elemekként kezeli, hanem a specifikustól generikusig rendezve a tárgyszóláncon belül, fogalmi szinteket jelez. Példa: •
•
Eredeti lánc: MAGYAR. LÍRA. ROMANTIKA. HASONLAT. A ciklikus permutáció és a betûrendezés után: HASONLAT. MAGYAR. LÍRA. ROMANTIKA LÍRA. ROMANTIKA. HASONLAT. MAGYAR MAGYAR. LÍRA. ROMANTIKA. HASONLAT ROMANTIKA. HASONLAT. MAGYAR. LÍRA
HASONLAT. ROMANTIKA. MAGYAR. LÍRA ROMANTIKA. MAGYAR. LÍRA MAGYAR. LÍRA LÍRA
Hivatkozási index (Garfield, Science Citation Index,1964) – – – –
Kizárólag géppel (bibliometria, szcientometria, webometry, informetry) Hivatkozott mü és hivatkozó közötti tartalmi kapcsolatot mér, térképez Indexelés bibliográfiai tételekkel = nincs terminológiai probléma Tudományos teljesítmény mérése, rangsorolás, minösítés eszköze is
Nyelvészeti irányzat: Információkeresö tezaurusz • • • • •
Az osztályozási rendszerek általános problémája a lexikai egységek közötti kapcsolatok feltérképezése ill szervezésük nagyobb egységekké A tipizálás két iskolája a kontextusfüggetlen relációkat, értelmi összefüggéseket használó tezauruszok, ill a szintaktikus IKNY-ek kontextustól függö, de relációmegörzö transzformációi 1960-70-es években ismerték fel a relációk elem-voltát, fontosságát. Thesaurus (görög) = kincsesház, kincstár Paradoxon: (szó)szemantikával a szintaxist is Meghatározás (MSZ 3418-87): "Az információkeresõ tezaurusz természetes nyelven kifejezett fogalmak olyan tartalmilag szabályozott, szükség szerint változtatható szótára, amelyben feltüntetik a legfontosabb fogalmi összefüggéseket. A tezaurusz fõ rendeltetése információk feldolgozása és keresése."
Meghatározások •
•
•
•
A tezaurusz egy-egy szakterület teljesnek mondható, természetes nyelven kifejezett fogalomgyûjteménye, ahol a fogalmak közötti kapcsolatokat is feltüntetik. A fogalmak és a relációk azonos értékûek a rendszerben. A "szükség szerint változtatható szótár" kifejezés rámutat a fogalmi teljesség idõbeli rögzítettségére és a bõvíthetõség biztosításának követelményére is. A tezauruszban a fogalmak lexikai egységek formájában jelennek meg. – A tezaurusz lexikai egységei a deszkriptor és a nemdeszkriptor. – A deszkriptor az információk leírására, és visszakeresésére közvetlenül alkalmazható szó. – A nemdeszkriptor a deszkriptor szinonim vagy szinonimnak tekintett kifejezése, mely az információk leírására és visszakeresésére közvetlenül nem, csak a vele összekapcsolt deszkriptor figyelembevételével használható. A tezaurusz segítségével megvalósítható a dokumentumok osztályozása és indexelése. Lehetõség van az azonos tartalmú dokumentumok csoportba sorolására, az egyedi információk leírására és a változó szempontok szerinti rendezésére, s ezek tárolására. A rendszer felhasználható hatékony keresõprofilok szerkesztésére. A tezaurusz elsõdleges feladatain túl fontos szerepet tölthet be a szakmai nyelv és terminológia egységesítésében. A deszkriptorok gyakoriságvizsgálata képet ad a kutatási témák megoszlásáról és fejlõdési irányairól.
A tezauruszkészítés menete • •
Elökészítö munka Induló szóanyag összegyüjtése – [Automatikus] szóstatisztikai elemzés – Az adott területre vonatkozó tájékoztatási segédeszközök elemzése, pl. lexikonok, enciklopédiák, értelmezõ szótárak, név- és tárgymutatók – Gyakorlott osztályozási szakemberek és a feltárandó terület tudományos képviselõi közvetlen megbeszéléseken gyûjtik össze a szakkifejezéseket – Meglévõ osztályozási rendszerek és szókészletek felhasználása – A fentiek kombinációi
• • • • • • •
Szókészlet elemzése, a legfontosabb deszkriptorok kiválasztása és a deszkriptorok betûrendes mutatójának elkészítése Deszkriptorok gráfszerû kifejtése A deszkriptorok közötti relációszerkezet kialakításával a deszkriptorcikkek létrehozása. A nemdeszkriptorok kijelölése A tezaurusz fõrészének szerkesztése a kapott deszkriptorcikkekbõl A csúcsdeszkriptorok - legmagasabb szintû, legfontosabb jellemzõk kijelölése. A hierarchikus rész láncszerû szerkesztése a fölé- és alárendelési reláció alapján A kiegészítõ jegyzékek elkészítése A kész tezaurusz ellenõrzése, kiegészítése, és a modellkísérletek végrehajtása
A lexikai egységek formája •
Szabályok: – A deszkriptorokra vonatkozó formai szabályok lényegében megegyeznek a tárgyszavakéval – A lexikai egységeket szabványos nyelvtani alakban, lehetõleg fõnévként kell megadni – A deszkriptorok általában egyes számú fõnevek, kivéve, ha a kifejezés gyûjtõfogalom, vagy csak többes számban használatos, vagy ha az egyes számú és többes számú változat jelentése között különbség van – A lexikai egység lehet köznév, tulajdonnév, számnév és betûszó is. Ha a rövid alakot választottuk, közölni kell a teljes alakot, zárójelben fel kell oldani és utalni kell róla – Szerkezetét tekintve a deszkriptor lehet egytagú vagy többtagú (összetett szó, több szóból álló kifejezés) szó. Többtagú szót akkor használhatunk, ha jelentése nem következik összetevõinek jelentésébõl (pl. királyvíz), összetevõi fontos vagy rendezõ szerepet töltenek be az osztályozásban, illetve túl általánosak stb. – A többtagú kifejezéseket természetes sorrendben írjuk le és nem invertálunk, hisz a szerkezetet úgyis a relációk képezik. Utalókat csak a több szóból álló kifejezések fontos, önálló elemeirõl készítünk, pl. a természetes és a mesterséges nyelvek esetében célszerû utalni a mesterséges nyelvekrõl
Szemantikai egységesítés Szabályok: •
•
•
A szinonimák és kváziszinonimák kitüntetett szerepet töltenek be a rendszerben. A tezauruszban szinonimán a tartalmilag egymást helyettesítõ, kváziszinonimán az adott szakterületen azonosnak tekinthetõ kifejezéseket értjük. A szinonimakapcsolat esetei: – Különbözõ alakú, magyar nyelvû kifejezések, pl. eb - kutya – Egy fogalom magyar és idegen nyelvû változata, függetlenül attól, hogy meghonosodott-e mindkettõ, pl. szerkezet - struktúra – Egy fogalom köznapi és tudományos változata, pl. sósav - hidrogénklorid – Egy fogalom rövidített és teljes megnevezése, pl. ETO - Egyetemes Tizedes Osztályozás – Egyéb alakváltozatok: szófaji, igekötõs stb. eltérések, pl. információs tezaurusz információkeresõ tezaurusz; hûlés - kihûlés. A rendszerben a szinonimákat a legfontosabb fogalmi kapcsolatok közé soroljuk és L (lásd), illetve H (helyettesíti) relációkban tüntetjük fel. Egyes tezauruszok a szinonimák közül gyakran kiemelnek egyet (deszkriptor - nemdeszkriptor) és ezt használják a leírásban és a keresésben is. Más esetben a névvariánsokat használják, s a megfeleltetést utólagos összekapcsolással oldják meg. A homonímák - többjelentésû szavak - megkülönböztetése a zárójelben utánnuk tett értelmezõ segítségével történik: – entrópia (információelmélet) entrópia (termodinamika).
A tezauruszcikk szerkezete Szabályok: • • •
• •
A tezauruszcikk a deszkriptorcikk és a nemdeszkriptorcikk közös elnevezése A tezauruszcikk az élén álló vezérdeszkriptorból és a hozzá fogalmilag közvetlenül kapcsolódó, s e kapcsolatok jellegét is feltüntetõ deszkriptorokból áll A cikken belüli kapcsolatok, relációk sorrendje meghatározott. Egy adott reláción belül a lexikai egységek betûrendben sorolódnak fel, a közöttük lévõ esetleges kapcsolatok feltüntetése nélkül. Deszkriptorcikként szerepelhet egyedül álló vezérdeszkriptor is A nemdeszkriptorcikk a nemdeszkriptorból, valamint a leíráskor és kereséskor helyette használt deszkriptorból áll A rendszerben feltüntetett minden egyes kapcsolat "fordítottjának" is meg kell jelennie a megfelelõ tezauruszcikkben
Példa •
A tezauruszcikk felépítése néhány kitüntetett, gyakran használt relációval:
•
A tezauruszszabványban felhozott példa:
VEZÉRDESZKRIPTOR
•
FORGÁCSOLÁS
H F A T P R E X
szinonimája fölérendeltje alárendeltje egésze (totum) része (pars) meghatározottja (rezultáns) meghatározója (elõfeltétel) rokonsági kapcsolat
H forgácsoló alakítás F anyagszétválasztás megmunkálás A esztergályozás fúrás köszörülés marás üregelés vésés T gyártástechnológia P forgásvezetés nyíró igénybevétel R forgács forgácsolási felület E forgácsoló szerszámgép forgácsoló szerszám X forgácsolhatóság szerszámelrendezés
A tezaurusz relációi •
Szinonima (L-H) reláció. Irányultságát tekintve két típusa van: – L (lásd a szinonimát) A nemdeszkriptorcikkekben használjuk, a lexikai egység által jelölt fogalom helyett a jelet követõ deszkriptort kell alkalmazni, pl.: • STRUKTÚRA L Szerkezet
– H (nemdeszkriptort helyettesít) A jelet követõ nemdeszkriptor a deszkriptorcikk élén álló vezérdeszkriptort helyettesíti, pl.: • SZERKEZET H Stuktúra
•
Fölé- és alárendeltségi /generikus, nem-faj/ (F-A) reláció. Ha egyik fogalom alárendeltje a másiknak. (A logikában az alárendelt fogalmak összessége (uniója) kiadja a fölérendelt fogalmat. A tezauruszban ez nem feltétel) • KÖNYVTÁR A közmûvelõdési könyvtár • KÖZMÛVELÕDÉSI KÖNYVTÁR F könyvtár
•
Egész-rész /szerkezeti/ (T-P, totum-pars) reláció. Fizikai, szerkezeti kapcsolatokat határoznak meg a fogalmak között. A részfogalmak nem rendelkeznek az egész fogalom valamennyi ismérvével = az egész több/más, mint részeinek összessége • CÍMLAP • P verzó
VERZÒ T címlap
A tezaurusz relációi folyt •
Rezultáns és elõfeltétel (R-E) reláció. A rezultáns (következtetés) reláció több hasonló jellegû tartalmi kapcsolat összefoglaló elnevezése. "A vezérdeszkriptor által jelölt tárgy, folyamat stb. rendeltetése, okozata, eredménye, terméke, célja, tárgya, következménye (együttvéve: meghatározottja) a jelet követõ deszkriptor által jelölt folyamat, tárgy stb. (együttvéve: meghatározó)." Például: • CERUZA R írás
Az elõfeltétel (kiindulás) reláció is, irányított reláció lévén, több hasonló jellegû tartalmi kapcsolat foglal össze. "A vezérdeszkriptor által jelölt folyamat, tárgy stb. létének, létrehozásának, mûködésének, meghatározásának oka, eredete, elõidézõje, eszköze, alapja, kiindulása (együttvéve: meghatározója) a jelet követõ deszkriptor által jelölt tárgy, folyamat stb. (együttvéve: meghatározott)." Például: • ÍRÁS E Ceruza
•
Rokonsági (X) reláció. A tezauruszban más módon ki nem fejezhetõ, lényeges kapcsolatok tartoznak ide, pl.: ellentét, hasonlóság stb
A tezaurusz felépítése Bevezetõ rész tartalmazza a címlapot és a bevezetést (cél, szerkezeti felépítés, készítés módja, mennyiségi jellemzõk stb.) A szótári rész a tezauruszban lévõ lexikai egységek különbözõ ismérvek szerint rendezett jegyzékeinek együttese. . A kötelezõ szótári részek: a fõrész, a jelentéskör szerint csoportosított rész és a lexikai egységek betûrendes mutatója. A tezaurusz fõrésze tartalmazza a tezauruszcikkeket vezérdeszkriptoraik betûrendjében. A fõrész egységei deszkriptorcikkek és a nemdeszkriptorcikkek. A jelentéskör szerint csoportosított rész egy helyre gyûjti a tartalmilag összetartozó deszkriptorokat. A csoportosítás történhet szakterületek és ezek alterületei, illetve fogalmi kategóriák (facetták, vetületek) és ezek alkategóriái szerint. A legkisebb csoportokon belül a lexikai egységek betûrendben vannak. A lexikai egységek betûrendes mutatója a vezérdeszkriptorokat és a nemdeszkriptorokat betûrendben sorolja fel. A mutató elmaradhat, ha megegyezik a fõrészben található vezérdeszkriptorok és nemdeszkriptorok sorrendjével. A további lehetséges részek: a hierarchikus rész, a grafikus rész és a kiegészítõ jegyzékek nem minden tezauruszban találhatók. Kidolgozásuk nem kötelezõ, de gyakran segítik a tájékozódást. A hierarchikus rész általában a tranzitív relációk (generikus, szerkezeti) alapján kiemeli a tezauruszcikkekbõl a hierarchikus kapcsolatban álló fogalmakat, s ezeket a legáltalánosabbtól a legkonkrétabbig láncba fûzi. Ez a fajta elrendezés rendkívül hatékonyan segíti a keresést. A grafikus rész a jelentéskör szerint kiválasztott deszkriptorokat és kapcsolataikat gráfok segítségével ábrázolja. A kiegészítõ jegyzékek azoknak a kifejezéseknek, neveknek (pl.: tulajdonnevek) a betûrendes jegyzékei, melyek az osztályozásban és indexelésben felhasználhatók, de beépítésük indokolatlan a fõrészbe.
OSZK Köztaurusz / Taxaurusz grafikus rész
Tezauruszok • • •
AGROVOC OSZK UNESCO
Nyelvészeti irányzat: Ontológiák •
•
A mesterséges intelligenciával kapcsolatban használt ontológia szó nem egyértelmű kifejezés. A filozófiában már régóta használják, ott a létezés témáját jelöli. (Sokan összekeverik az episztemológiával, amely a tudásról szól annak főnévi és igei értelmében, azaz a tudás egyszerre tény, az a cselekvés vagy állapot, hogy valamit tudunk, és a szerzett ismeretek összessége, rendszere, azaz valamilyen reprezentáció.) Az ismeret vagy a tudás megosztása kontextusban az ontológia a fogalomalkotás, fogalom feltérképezés (conceptualization) specifikációját, vagyis konkrét körülírását, megkülönböztetését jelenti. Az ontológia azon fogalmak és viszonyok leírásának fajtája, amelyek egy vagy több ágens viselkedésére vonatkozik. –
•
•
Gyakorlati célból az ontológiai egy formális szerkezetű szótárban szereplő meghatározások csoportját jelenti. Bár nemcsak ez az egyetlen módja van a fogalomalkotás specifikálásának, e módszernek van néhány olyan tulajdonsága, amik miatt az jól használható a tudásmegosztásra a MI-ban.
Ontológiákat a MI területén abból a célból készítenek, hogy lehetővé váljon a tudás megosztása és ismételt felhasználása. Ennek eszközei a különbözö funkciójú software robotok. Az ontológiák a robotok között kommunikációt segítik, lényegében egy-egy kifejezés értelmét kódolják számukra, ami az ismeretek megosztásához vezet közöttük. A MI rendszereknél létrehozott közös szókincs (szótár) a közös tudást képviseli vagy reprezentálja. Egy szakterület fogalmainak specifikációjá, az osztályok, relációk, funkciók (függvények) és egyéb objektumok meghatározásait nevezik ontológiának. A definíciókat a kijelentéskalkulus (predicate calculus) szabályai szerint írják le, amit azután lefordítanak speciális reprezentációs nyelvekre.
Ontológiák folyt • •
•
Gyakorlati szempontból egy közös ontológia azt a szótárt adja meg, amelynek segítségével az ágensek egymás között kérdéseket és válaszokat tudnak megfogalmazni. A szótárt használó ágensnek nem kell megosztania a tudásbázisát, mert minden ágens tud olyasmit, amit a másik nem, és egy ontológiát használó ágensnek nem kell tudni a közös szótár segítségével összeállítható minden kérdésre válaszolni. Felhasználási ötlet: a szemantikus világháló (Semantic Web)
Ontológiák – példák • • • • •
Upper ontology Ontológia AGROVOC: tezauruszból ontológia Protégé Protégé csomag