Integration of thesaurus and UDC to improve subject access: the Hungarian experience Ágnes Hajdu Barát University of Szeged The Hague 29.10.2009.
Agnes Hajdu Barát
1
Introduction • The objective of this paper is to explore two solutions for integrating a thesaurus and UDC to develop a common platform for informational retrieval • Two Hungarian projects • The usability and visibility of UDC
The Hague 29.10.2009.
Agnes Hajdu Barát
2
MÁTrIkSz • MÁTrIkSz = Hungarian Comprehensive Information Retrieval Language Dictionary
The Hague 29.10.2009.
Agnes Hajdu Barát
3
The first steps • At 3rd May 2001 the represents of Ministry of National Cultural Heritage organized the meeting about MOKKA[1] (Magyar Osztott Közös Katalógus – Hungarian Shared Common Catalogue) project. There are 25 libraries what share their records in this common catalogue. • Libraries have different subject terms, UDC codes in the MOKKA. • Subject Heading Committee [1] http://www.mokka.hu/ The Hague 29.10.2009.
Agnes Hajdu Barát
4
Aims 1. • A controlled vocabulary would make a database easier to search.[1] • MÁTrIkSz project aimed to transform and reconstruct the existing systems for the changed claim. • The concept was: to give the possibility of the common search of the topical terms (subject, descriptors, UDC codes etc.) in five big libraries’ catalogues and databases with different structures and information retrieval methods. [1] http://www.controlledvocabulary.com/ The Hague 29.10.2009.
Agnes Hajdu Barát
5
Aims 2. • The members of the MÁTrIkSz project board decided to correspond the topical terms to the phrases of the KÖZTAURUSZ/OSZK thesaurus in several databases. • The usage of classification systems that are not based on languages can be another solution for the problem of cross-language information search, although there are several problems that have to be solved. Significant advantages are the conceptual level The Hague 29.10.2009.
Agnes Hajdu Barát
6
Number of terms • It was the largest Hungarian Information Retrieval Language Dictionary on natural languages until 2008. Its subject terms assembled: • OSZK thesaurus/KÖZTAURUSZ – about 28.000 lexical terms, - University Library and National Library of University of Debrecen – about 25.000 subjects, • University Library of University of Szeged - about 60.000 subjects, Total terms in MÁTrIkSz - about 113.000 terms The Hague 29.10.2009.
Agnes Hajdu Barát
7
Features of MÁTrIkSz project 1. • The MÁTrIkSz is the co-operating system of the participant information seeking methods and databases. • The KÖZTAURUSZ/OSZK thesaurus took a prominent role among them, but the participants are its equals. • There is a suitable user interface to search each participant dictionary and to utilize different topical terms, for example UDC terms, subjects, descriptors. • The MÁTrIkSz has its own information retrieval language dictionary, too, which is independent of the other bibliographical databases, but searches in those systems. • There is a common online index and its records have a local identification. The Hague 29.10.2009.
Agnes Hajdu Barát
8
Features of MÁTrIkSz project 2. • The result isn’t only a bibliographic record, but there are contents of topical terms. The different classification systems and their bibliographical databases appear in a unified and homogeneous environment. • Each database keeps their own descriptors, terms and if they have any similar expressions with different morphological forms, make the KÖZTAURUSZ’s phrases appear in 750th field (equivalent) of the MARC record. • Hits would come from all bibliographic databases, presenting diverse expressions of participant libraries without any analogy. Hits would come from only the own database. Bánki, 2002, p.35.
The Hague 29.10.2009.
Agnes Hajdu Barát
9
Features of MÁTrIkSz project 3. • The project assisted the new medium edition of UDC index. The adaptation of UDC MRF relating the KÖZTAURUSZ/OSZK thesaurus and the UDC index were built in the thesauri. • The UDC codes became searchable in the MÁTrIkSz system, and they give the basis of searching in multicultural and multilingual environment, too, because the UDC codes and the descriptors are in conceptual level. • The MÁTrIkSz system started at April of 2002, but after some years this project wasn’t finished from personal and financial causes. The Hague 29.10.2009.
Agnes Hajdu Barát
10
The Hague 29.10.2009.
Agnes Hajdu Barát
11
Examples from MÁTrIkSz
The Hague 29.10.2009.
Agnes Hajdu Barát
12
The Hague 29.10.2009.
Agnes Hajdu Barát
13
KÖZTAURUSZ/OSZK thesaurus
The Hague 29.10.2009.
Agnes Hajdu Barát
14
Beginnings • The exact project started in 1999, but there were long considerable antecedents. • County Library in Kaposvár , National Széchényi Library • The thesaurus provides system enhancements to subject and concept - UDC - based search services and users can operate more efficiently then earlier. • UDC classification numbers joint to lexical terms of KÖZTAURUSZ and mostly lexical terms have relation to any UDC number. • RELEX software • HUNMARC export has two versions: ¾ KÖZTAURUSZ with UDC codes, and ¾ KÖZTAURUSZ without UDC codes. The Hague 29.10.2009.
Agnes Hajdu Barát
15
Two appearances There are two appearances of this system in the National Széchényi Library: • the search engine in the OPAC • the online thesaurus with the UDC code without bibliographical records. We can look for the UDC code directly and the system shows related descriptors of concept also. The Hague 29.10.2009.
Agnes Hajdu Barát
16
Some characteristics 1. • It is the largest Hungarian Information Retrieval Language Dictionary on natural languages. • It was made with the help of modern technology, by computer and it is used on electronic supporting, concerning informational network, Internet, too. Its software is RELEX. • It is possible to develop and keep on the Internet dynamically. • It can work with MARC format. • It has very easy sentence construction and syntax. The Hague 29.10.2009.
Agnes Hajdu Barát
17
Some characteristics 2. • It is of high level, efficient, open, flexible, easily used, with rich vocabulary and a clear structure scheme. • It has involved some of the existing Hungarian thesauri since 1990. Their numbers are over 20. • At the beginning the weakness of these thesauri was the few bibliographic records, which are really used in these systems. So the MÁTrIkSz project was a good opportunity for the KÖZTAURUSZ and the OSZK thesaurus. • It can be used by automatic classification and indexing systems, too. • It can involve and the UDC index of the last two Hajdu Barát, 2003 Hungarian editions. The Hague 29.10.2009.
Agnes Hajdu Barát
18
Total lexis of KÖZTAURUSZ and Geotaurusz 1. Lexical terms
UDC code
UDC Hungarian edition, 1990
130 000
UDC Hungarian edition, 2005
90 000
Comment
KÖZTAURUSZ 2001.04.15.
28 671
KÖZTAURUSZ 2003.12.16.
38 840
increase: 134 %
KÖZTAURUSZ 2008.11.30.
62 141
increase: 217 %
KÖZTAURUSZ 2009.03.01.
62 585
increase: 218 %
Geotaurusz 2001.02.11.
7 963
Geotaurusz 2009. 03. 01.
67 687
The Hague 29.10.2009.
Agnes Hajdu Barát
increase: 847 %
19
Total lexis of KÖZTAURUSZ and Geotaurusz 2. – from KÖZTAURUSZ UDC code KÖZTAURUSZ UDC code isn’t KÖZTAURUSZ
in
23 699 the
in
55 837
the 26 708
UDC entry vocabulary in KÖZTAURUSZ
2 814
Total lexical terms of KÖZTAURUSZ and Geotaurusz actually: 129 828 The Hague 29.10.2009.
Agnes Hajdu Barát
20
Comparison
Library 2001.
of
Congress,
65 000
Library 2008.
of
Congress,
100 000
increase: 154 %
Increasing of different parts of KÖZTAURUSZ: 134-847 % The Hague 29.10.2009.
Agnes Hajdu Barát
21
Structure There are the descriptors, nondescriptors (used for), relations in standard form. According to their contents the lexical elements can be following: - technical expression, topical term (library); - geographical and ethnographical term (the Hague); - time (1956); - art style (romanticism); - formal term (dictionary, video); - language phrase (Dutch); - modificator (digital, property); - personal and institutional name (Konrád György, Koninklijke Bibliotheek); - classification of organ, organism, creature (virus, animal); - type of illnesses (grippe). The Hague 29.10.2009.
Agnes Hajdu Barát
22
Notes in HUNMARC HUNMARC code
KÖZTAURUSZ/OSZK thesaurus
Name
667
Nonpublic general note
670
Source data found note
675
Source data not found note
678
Bibliographical or historical data note
680
Public general note
682
Deleted heading information
687
Usage of heading note
688
Application history note
690
Local note
The Hague 29.10.2009.
Agnes Hajdu Barát
Used
Used Used
23
Hungarian and English relations in thesauri 1. mark
English name of Relation
mark
lásd
L
see / use
see / use
450##a
helyett (lásd innen)
H
used for
used for, UF
descriptor with other descriptor
450##ws
lásd ÉS
L&
see AND / use AND
see AND / use AND
nondescriptor with other descriptor
450##wt
helyett ÉS (lásd innen ÉS)
H&
used for AND
used for AND
descriptor with OR
450##wu
lásd VAGY
L
see OR / use OR
see OR / use OR
nondescriptor with OR
450##wv
Helyett VAGY (lásd innen VAGY)
H
used for OR
used for OR
generic relation
450##wg
átfogóbban/általánosabban
F
broader term generic
BT
450##wh
speciálisabb/fajtája
A
narrover term generic
NT
Type of relation
HUNMARC subfield
Hungarian name of relation
descriptor
450##a
nondescriptor (used for)
The Hague 29.10.2009.
Agnes Hajdu Barát
24
Hungarian and English relations in thesauri 1. Type of relation
HUNMAR C subfield
Hungarian name of relation
mark
English name of Relation
mark
egésze/teljes
T
broader term partitiv
BTP
450##wk
része/eleme
E
narrover term partitiv
NTP
450##wp
eredménye/ folytatása
R
broader term causal
BTC
450##wr
kiindulása/ előzménye
E
narrover term causal
NTC
450##wm
egyéb rokonsága/ lásd még
X
related term
RT
partitiv relation 450##wj
causal relation
related, associative relation
The Hague 29.10.2009.
Agnes Hajdu Barát
25
Types of Words and its fields of IRL in the bibliographical record 1. HUNMARC code
Name of description
Example
600
personal names
Németh László (1901-1975)
Corporate names
Bethlen Gábor Gimnázium (Hódmezővásárhely)
611
Meeting names
Classification at a crossroads – Multiple directions to usability The Hague, 29-30 October 2009
630 650 651 653
Uniform titles Topical terms Geographic names Free topical terms
610
The Hague 29.10.2009.
Bible (New Testament) walking tour, architecture The Hague, Szeged, Baktói u. cooper vase, pregnancy
Agnes Hajdu Barát
26
Types of Words and its fields of IRL in the bibliographical record 2. HUNMARC code
Name of description
Example
655 656
Formal topical terms Occupation Targets and objects of document
novel, postcards, thesaurus, season ticket
658
Educational terms
LIS education, further education, adult education
662
Hierarchical geographic names
Hungary, Csongrád County, Szeged, Baktó
657
The Hague 29.10.2009.
carpenter, surgery, librarian social welfare, criminal investigation
Agnes Hajdu Barát
27
The authority record 1. Tag ii $ nz n # 5. 000 #####nz 22#####n 4500 001 005 20080713233723.0 008 080603-#n#an-z##ba-#n###-#####-###a#-ana##-###d 040 ## $aMBA $bhu $fJogi és igazgatásügyi tezaurusz 150 ## $aközigazgatási bíróság 450 ## $wy $aállamigazgatási jogszolgáltatás 450 ## $wy $aközigazgatási bíráskodás 450 ## $wy $aközigazgatási kollégium 550 ## $wg $abíróság 550 ## $wk $aközigazgatási jog administrative 550 ## $wk $abírósági felügyelet court 550 ## $wk $aközigazgatási ellenőrzés 550 ## $wg $aválasztói kifogás 550 ## $wm $aközigazgatási peres eljárás The Hague 29.10.2009.
Agnes Hajdu Barát
28
The authority record 2. 670 ## $aAz 1991. évi XXVI. törvény a közigazgatási határozatok bírósági felülvizsgálatának kiterjesztéséről. 670 ## $aImre M.: Közig. Bíráskodás, 2008 670 ## $aOSZK-tezaurusz deszkriptora, átvéve 2008 $cUR 678 ## $aMagyarországon 1883-1949, majd 1990-től fennálló bíróság 680 ## $aA közigazgatási döntések ellenőrzésére hivatott, a rendes bíróságok szervezetétől eltérő szervezetű, az állampolgárnak a közigazgatással, az önkormányzatoknak a kormánnyal szembeni ügyeiben mint utolsó fórumként döntő különös bíróság 690 ## $aAz 1949-1990 közötti időszak államigazgatási határozatokkal szembeni eljárások, felülvizsgálatok esetén a "jogi felülvizsgálat", vagy a "jogi eljárás" és az adott kérdés deszkriptora ("lakásügy", "illetékügy" stb.), továbbá adott esetben az "egyeztető bizottság" használandó The Hague 29.10.2009.
Agnes Hajdu Barát
29
The authority record 3. • 750 ## $a342.565.4 $2eto 750 ## $a347.998.95 $2eto 750 ## $a351.95 $2eto 750 ## $aadministrartive court $0(euvoc)01539 $2euvoc
The Hague 29.10.2009.
Agnes Hajdu Barát
30
administrative court
•
Display form
közigazgatási bíróság
M: A közigazgatási döntések ellenőrzésére hivatott, a rendes bíróságok szervezetétől eltérő szervezetű, az állampolgárnak a közigazgatással, az önkormányzatoknak a kormánnyal szembeni ügyeiben mint utolsó fórumként döntő különös bíróság H: Az 1949-1990 közötti időszak államigazgatási határozatokkal szembeni eljárások, felülvizsgálatok esetén a "jogi felülvizsgálat", vagy a "jogi eljárás" és az adott kérdés deszkriptora ("lakásügy", "illetékügy" stb.), továbbá adott esetben az "egyeztető bizottság" használandó Tört: Magyarországon 1883-1949, majd 1990-től fennálló bíróság Forrás:Az 1991. évi XXVI. törvény a közigazgatási határozatok bírósági felülvizsgálatának kiterjesztéséről. Imre M.: Közig. Bíráskodás, 2008 OSZK-tezaurusz deszkriptora, átvéve 2008 (MÉ)
H államigazgatási jogszolgáltatás közigazgatási bíráskodás közigazgatási kollégium F bíróság T közigazgatási jog R bírósági felügyelet közigazgatási ellenőrzés választói kifogás ETO 342.565.4. 347.998.85 351.95 The Hague 29.10.2009.
Agnes Hajdu Barát
31
UDC authority record
The Hague 29.10.2009.
Agnes Hajdu Barát
32
UDC display format
The Hague 29.10.2009.
Agnes Hajdu Barát
33
RELEX software to the OWL
The Hague 29.10.2009.
Agnes Hajdu Barát
34
Hit in the online thesaurus Hungarian
English
jövesztés
break
ETO
622.02 622.026 622.063 622.063.2 622.23
UDC
622.02 622.026 622.063 622.063.2 622.23
H
jöveszthetőség
H
breakability
A
vízsugaras jövesztés
A
Break with water spout
T
fejtés
T
drawing
E
fejtőgép kőzetfúró gép réselés
E
cutter machine quarrying machine cutting
X The Hague 29.10.2009.
keszon
X Agnes Hajdu Barát
caisson 35
Hit in the online thesaurus break
The Hague 29.10.2009.
Agnes Hajdu Barát
36
Hit in the online thesaurus
cutting
The Hague 29.10.2009.
Agnes Hajdu Barát
37
Hit in the online thesaurus cutting
The Hague 29.10.2009.
Agnes Hajdu Barát
38
Integrated Library System KÖZTAURUSZ and its possibilities are adopted by some Hungarian Integrated Library System as a controlled vocabulary, for example TextLib, HunTéka, SrLib etc.
The Hague 29.10.2009.
Agnes Hajdu Barát
39
Extension Jelrendszer: Kék alap: Köztaurusz 2006, barna UJINFO angol, zöld CSA, ciklámen új javaslatok,világossárga Bgy javaslata Fogalom.
Angol
Definíció és utalók
Relex
abnormalitás
abnormality
l. deviancia, vagy deviancia alá
Relex LV eltérés
abortusz
abortion
lásd még művi abortusz , lásd még spontán vetélés, v. ö. terhesség /vagy művi abortusz l. abortusz, és a vetélések külön/
Relex LV művi abortusz, vetélés
absztinencia
abstinence
ált. vagy v.ö. Alkoholizmus, alkoholfogyasztás
Relex csak ETO
absztrakció
abstraction
abúzus
abuse
adakozás
Relex csak ETO visszaélés szerekkel, alkohollal, testi erővel
Relex nincs
jótékonyság alá
Relex uígy
adaptáció
adaptation
alkalmazkodás l. adaptáció
Relex. Fordítva, úgy is jó
adat /mérés/
items /measures/
mérési adat
Relex. Problémás
adat minősége
data quality
adatbank
data bank << database
l. adatbázis vagy fordítva
Relex. Uígy
adatbázis
database << data bank
l. adatban vagy fordítva
Relex. Uígy
adatelemzés
methodology /data analysis/
Kutatás folyamata a társadalomkutatásban alá. A már létező szociológiai adatok kvantitatív elemzése és értelmezése.
Relex. L. adatmodellezés. Egészen rossz!
The Hague 29.10.2009.
Agnes Hajdu Barát
40
Conclusion • Thesauri and other for concept-building vocabulary to take additional possibility of usability and visualization of UDC and its structure • The UDC appears to be more visible as an information retrieval tool and knowledge organiser in presented systems • The paper stressed the importance of cognition in providing the basis for concept-building and pointed out obvious possibilities and expedients of integration of thesauri and UDC. The Hague 29.10.2009.
Agnes Hajdu Barát
41
References • •
•
•
• • • •
Bánki, Zsolt István: Általános Információkereső-nyelvi szótár elméleti kérdései és gyakorlati megvalósítása. Budapest: ELTE BTK, 2002. 43 p. Fejős László, Ungváry Rudolf: A letöltött Köztaurusz HUNMARC formátumú aktualizálása rátöltéssel. http://www.ki.oszk.hu/107/e107_files/downloads/olvass_el_a_hunmarcletoltes_ismertetese.rtf Agnes Hajdu Barat: Knowledge Organization in the Cross-cultural and Multicultural Society = Culture and Identity in Knowledge Organization / Ed.Clément Arsenault, Joseph T.Tennis. Würzburg: Ergon Verlag, 2008, p. 91-97. Agnes Hajdu Barat: General Information Retrieval Language Dictionary in the Széchényi National Library (Hungary) = Tendencias de Investigación en Organización del Conocimiento – Trends in Knowledge Organization Research. Salamanca, Universidad de Salamanca, 2003, p.463-468. Ungváry Rudolf: Diplomatezauruszok hibái és tanulságai = TMT, 56, (2009) 5 http://tmt.omikk.bme.hu/show_news.html?id=5142&issue_id=504 Zombori Attila: Ütőhangszerek tezaurusza= TMT, 56, (2009) 5 http://tmt.omikk.bme.hu/show_news.html?id=5144&issue_id=504 http://www.controlledvocabulary.com/ http://www.mokka.hu/
The Hague 29.10.2009.
Agnes Hajdu Barát
42
Thank you for your attention! The Hague 29.10.2009.
Agnes Hajdu Barát
43